有才有料有趣,聊聊技术Demo的二三事

754bd22839cd695b0f1515512926690c.gif

8e166ac6a9ec0a937643eec2aa2aa998.jpeg

前不久,旷视举办了 MegTech 2022 技术开放日,集中展示旷视最新的 AI 研究成果。手绘人物转动画、VR 裸手交互、3D建模仿真检测、手机电影……每一项都让人不禁感叹科技的魅力,也收获了频频点赞,而这一切都离不开旷视技术人的执着追求和默默付出。今天,我们一起来听听那些技术Demo背后的故事吧。

 01

投身二次元,研究员用 AI 做动画

“AIC 组美工(不是)”。手绘人物转动画 Demo 的制作过程中,Eileen 修改了自己的钉钉签名。“那段时间,我们每天都在画画、改模型、修动作数据、剪视频……做的都是美工和动画师的活儿,哪里还像是一名研究员。”对于此番改签名,Eileen 笑言。当然除了她负责的 demo ,AIC 组其他 demo 的展示视频,也出自于她的一双巧手。

8e304488d090937c6164e72dfad65c03.png

Demo讲解员Eileen

手绘人物转动画,顾名思义,输入数张手绘人物的图片并提供动作序列,即可生成动画视频效果,无需画师逐帧手绘。其背后的技术是旷视自研的模型 CoNR (Collaborated Neural Rendering for Anime Character Sheets,用于二次元手绘设定稿动画化的神经渲染器)。

自研算法是一个辛苦的过程。团队经过了从最开始生成结果混乱、人物姿势也不可控,到现在仅输入 4 张甚至更少的任意姿势和角度的参考图片,就可以生成效果良好的动态人物视频,这个过程中,他们付出了很多努力:不熟悉 CG 技术、编辑模型和动作,就去学习研究;输出效果不好就分析各种解决方案;一次次手动转换各类 3D 格式、一点点优化 3D 模型,一遍遍尝试不同的 CoNR 模型逻辑,才最终有了现在的良好效果。

“我们都是热爱二次元的阿宅,希望以最好的效果展示我们的技术。”说起来,这个 demo 的最初创想,起源于团队成员 Lin 从初中起的努力,当时 Lin 就已经开始收集数据集,直到大家在旷视相遇,同样热爱二次元的他们,就这么一拍即合,经过一年的时间,将这个灵感逐渐完善落地。

在 Demo 制作过程中,精益求精的时刻其实很多。比如,为了展示更多变的发型生成效果, Demo 小组决心重新设计一个双马尾的动漫女孩形象,在无奈被画师“鸽”后,他们便自己画了新的手绘形象。为了追求极限,项目小组特意找朋友跳了一个动作复杂的舞蹈,尽管这样会让动作检测和渲染变得更难,但是只要能呈现更好的效果,他们愿意付出更多时间去优化。在开放日的现场,为了能给观众更深的印象,项目小组制作了很多手绘人物的贴纸发给大家。现在工区里每10个人中至少有1个人的电脑上贴着他们的贴纸,已经出现了“人传人”现象……

 02

Demo评审现场翻车了,怎么办?

在线等…急!

扔掉外接手柄,裸手操作VR进行绘画创作该有多酷炫?在技术开放日现场,VR裸手操作 Demo 让很多人惊叹,这难道就是“元宇宙”初体验。但你可能不知道,就在技术开放日前一周的内部评审中,这个 Demo 居然现场翻车了……

“Demo 评审是在一间光线较暗的会议室内,很多人一起围观演示效果,环境相较于日常实验的单一场景复杂得多,导致算法模型在识别操作者的手势动作时出现很多误判,体验效果不佳。”谈及 Demo 演示翻车,Zou 印象十分深刻。

当前,比较主流的 VR 交互体验大多需要使用手柄、手套、手部追踪配件等外接设备。“但是我们始终觉得应该有更好的交互方式,那就是裸手交互。”Zou 说。裸手交互,即无需外设备,通过 VR 设备的相机来捕捉手部的运动状态,基于深度学习技术对图像进行手部检测及关键点提取,并利用时序对手部运动进行跟踪,从而实现对手部姿态的实时三维重建,并基于重建结果进行姿态行为分析,由此即可实现在虚拟世界中进行各式各样的交互。

20c88b87aa572ea98d72de8e94d2167d.gif

Demo讲解员Zou展示VR裸手交互操作

VR 裸手交互最难的莫过于手势追踪、手势识别与分析的实时性、准确性。据 Zou 介绍,他们的算法模型可以将操作者手部关节点的三维坐标定位误差锁定在 6mm 以内。Demo 翻车其实也是因为在处理这一技术难点的时候没有考虑到多人复杂环境下的识别主体问题。

“这次演示确实暴露我们的问题,也给我们敲响了警钟,从算法模型到演示效果,任何一个细节没有注意到,就会让人觉得你的东西做的不成熟,所以必须考虑周全、精益求精。”Zou 如是说。“但是有问题不可怕,我们总有办法解决。”

bf7af088078f8b222d455f6525d6383c.jpeg

Demo讲解员Zou

评审一结束,Zou 便拉着团队小伙伴们讨论优化改进方案,大家按照分工重新采集数据、优化模型,同时还针对性地在模型中加入“数据监管”。后续的一周多时间,他们都奋战在 Demo 优化上,最终呈现出他们当下最好的展示效果,收获了参观人员的诸多好评。参与过内审的同学纷纷惊叹于现场效果的高完成度。

c6c2aa1fd11a88b6f46190f60c3d17b3.png

Demo小组成员(部分):Jun、Zou、Shan

 03

3D 建模+仿真+算法量产,

原来是一次神奇的合作

作为研究院机械臂组的成员,在日常工作中,Lei 经常会处理一些标品的检测需求。他深知,基于深度学习的目标检测依赖大量数据,而采集和标记数据需要耗费大量的人力。

20988916744c391a7f95b65f1f8dcfe0.png

Demo讲解员Lei

“如何低成本获得高质量的标注数据?至少工业领域的很多标品(表面纹理固定,近似刚体)检测应当有更好的方式?”Lei 一直在思考这个问题。他的设想是利用少量图片 3D 重建出目标物体的三维结构和纹理,再利用数据仿真技术生成目标物体在多种背景、光照条件下的各种姿势、材质的数据集。

带着这个设想,Lei 和小伙伴们参加了公司去年在内部组织的黑客松,并获得了创新奖。但是当接到技术开放日邀请时,Lei 的第一反应其实是拒绝的,因为他本身就在参与“探囊取物 demo ”的工作,担心没有足够精力来完善 3D 检测的 Demo。令他意外的是,算法量产组的 Tim 主动找到了他。原来是 Lei 在研究院月刊上发表的一篇文章吸引了 Tim 的注意。他找到 Lei 说,“我们可以合作,3D 仿真重建的数据集加上 AIS 平台,可以自动训练得到一个目标检测模型。”

“来新帮手了!”Lei 当即决定召集伙伴开干。Lei 主要负责整体统筹和数据仿真模块的优化,数据仿真技术用的是自研的框架,有很多需要优化完善的部分。Xin 负责 3D 重建,他不仅每次都是第一个完成模型优化任务的,还在百忙之中写了一个前端后台,可以便捷上传图片、自动化训练 3D 模型。算法量产组的 Feng 虽然是后期才介入项目的,但是一接手就展现了可靠的实力,迅速利用周末时间自己采集了一个难度很高的测试集,代码能力,实验规划能力也超强。Tim 每次开会讨论都会给出非常有建设性的指导意见,Demo 展示的视频创意便是出自他。

功夫不负有心人,经过团队小伙伴的共同努力,3D 建模仿真检测 Demo 重磅出炉,通过整合三维重建、数据仿真和目标检测等技术,几乎0人力投入,只需要拍摄几张标品照片,就可以在30分钟内生成一个目标检测模型。

 04

为展示计算摄影,

他们拍了旷视首部电影短片

初看手机电影的 Demo,你一定会被它的颜值所吸引。电影中男孩女孩相识相知相恋,浪漫的爱情通过手机视频呈现给大家,每一帧都堪称唯美。

但是作为 Demo 的算法研究员之一,Wen 更关注的还是画面背后来自旷视的手机计算摄影技术。据 Wen 介绍,这是一支为集中展现旷视最新计算摄影技术而专门拍摄的原创电影短片,虽然只有短短两分钟,但是涵盖了旷视的视频人像分割算法、图像处理、深度估计算法,集合了视频人像虚化、视频人像留色、视频双重曝光和光斑特效四种视频特效以及最新研发的电影模式算法。

“过去我们给单个算法拍摄过一些简单的效果展示视频,但这次我们想通过一部手机电影来证明旷视在手机电影方向上的整体成果。”Wen 解释道。

3cede76ce6b85e0edfc61671d5654f4e.png

Demo讲解员Wen

在计算摄影技术方面,旷视一直走在行业前列,这其中离不开旷视人的付出。回忆起每个手机摄影技术的研发,Wen 都印象深刻。团队成员遍布在北京、成都、深圳三地,大家通过线上沟通技术研发与交付;面对不断迭代的芯片技术,让算法适用于不同芯片但又要保证最终呈现效果都达到高质量,就需要技术做到及时优化性能;在今年的电影模式研发中,他们更是在单摄模式下模拟出不输双摄的电影镜头般的拍摄效果,这让整个团队都非常振奋……

“坚持把一件事情做到极致,其实也是一种浪漫。算法优化是没有止境的,我们将不断优化技术,给用户呈现最好的摄影效果。”Wen说。

outside_default.png

决定世界未来的不是技术,而是技术背后的人。旷视技术人始终坚持“技术信仰、价值务实”,他们对技术创新有着一往无前的勇气和热情,对技术极致有着孜孜不倦的追求,正是有这样的技术人,才让旷视能在 AI 科技大考中,写出了分量十足的“旷视答卷”。期待看到更多优秀的技术人在旷视实现技术追求!

outside_default.png

0017df6bb7b84cc9949b6c79cfc6dc90.jpeg

492d6cb9d5c7c50ad9b8cfdd93be95a5.png

460434869faff38821dd8629a550a372.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值