人脸解锁手机与电影阿丽塔背后的3D原理：云从科技的技术突破

最新推荐文章于 2024-08-01 00:42:45 发布

亲爱的数据

最新推荐文章于 2024-08-01 00:42:45 发布

阅读量660

点赞数

本文链接：https://blog.csdn.net/weixin_39640818/article/details/98735164

版权

640?wx_fmt=jpeg

原创：谭婧

作为人类，感谢与生俱来的视力，我们睁眼便可见一个三维的世界，我们的大脑天生就有处理三维数据的能力，而计算机则比较困难，处理的信息从2D到3D迈出了一大步，三维数据能够提供比二维数据更多的信息。

640?wx_fmt=jpeg

640?wx_fmt=png

如图：面补贴点获得3D信息

提到计算机的3D图像处理技术可能不好理解，但是想到这个技术的应用就是苹果手机人脸解锁的功能，这样一定不会让人感到陌生。再提到豪华特效巨制电影《阿丽塔》，3D信息采集需要专门的设备与面部贴点来完成精细的人像采集，但是工程量巨大，据说她的一只眼睛比《魔戒》中咕噜全身的像素都高。

640?wx_fmt=jpeg

如图：咕噜对自己像素低很不满意！

这部电影平均每一帧需要100小时渲染，总计用了4.32亿个小时的渲染，共动用了30000台电脑，看来除了演员辛苦，计算机也没少出力。

为什么要费尽心思获得三维信息？举个例子，我的面前放了一个杯子，用手机拍一张照片，你看到了我和杯子。因为照片是二维的你获得的信息很有限，如果这是一张三维的照片，那么你讲清楚的知道，杯子离我的精确距离。而看普通的二维照片只能大概估计一下杯子离我的远近。

640?wx_fmt=jpeg

如图：请问两个杯子之间的距离是多少？

既然信息量更大，那么3D数据对技术的压力也就更大。

压力一：3D数据的计算是矩阵计算，对计算机的算力有了更高的要求。
压力二：3D数据的标注比二维困难。
压力三：3D数据的获得，或者说采集，可比二维数据的贵多了。比如体感相机可以拿到3D的数据，而二维数据由普通光学摄像头拍出来，也就是平时用的相机拍出来的普通照片。

由此可以总结，玩3D图像是土豪的专属。

640?wx_fmt=jpeg

再看我们最常见智能手机人脸解锁功能，也有不完美之处——克服不了同卵双胞胎长得太像的魔咒。因此可以互相解锁彼此的手机。

这个问题的其中一个原因就是如果数据能够刻画出双胞胎之间微妙的不同，那么问题就好说。所以3D技术也在不断提高自己的战斗力。

为了打破3D数据的土豪光环，计算机视觉的科学家们八仙过海，而人工智能公司云从科技又有了新的技术突破。

这个技术叫做——基于单帧图像的3D重建技术。

640?wx_fmt=jpeg

如图：人体姿态信息

这项人工智能技术可以从单帧图像中推理出人体或人脸的3D形态，并通过“光学透视”和“阴影叠加”等基本光学原则准确预测出各个关键点在3D空间的位置和朝向，从而得到人体的姿态或表情信息。从推理，到准确预测。这样就可从2D图像的信息中得到3D图像的信息。

640?wx_fmt=jpeg

如图：人体姿态信息

640?wx_fmt=jpeg

如图：人体姿态信息

有了这项神技巧，玩3D图像不再是土豪的专属。获取3D图像的昂贵设备、数据的处理和运算算力的成本都可以一下省了很多。

这项技术与传统关键点检测、3D重建技术的区别在哪？

传统的人体关键点检测技术往往以2D的人体骨骼关节点检测形式出现，即通过技术预测RGB图像中人体的十几个关节点的坐标，一方面结果非常稀疏，将人体大为简化成骨骼的形式，另一方面结果往往只包含二维平面上的坐标预测，不能还原深度信息，因此无法体现纵深的感觉。而基于单帧图像的3D重建技术不仅能输出骨骼关节点信息，更能同时预测大量的人体表面关键点信息，预测结果更加丰富，而且每个点的坐标都是3D的，能够体现不同躯干的纵深信息。

640?wx_fmt=png

如图：3D关键点检测

传统3D重建技术大多需要连续的图像序列或是多视角的图像，在硬件设备上一般需要采用双目摄像机或者结构光摄像机等设备，因此在手机等便携设备上往往难以实现；另一方面，专用设备还会增加部署成本，增加大规模普及3D重建技术的难度。

这项技术的成果如何？

3月19日，云从科技基于单帧图像的3D人体重建技术同时在Human3.6M、Surreal和UP-3D数据集上创造了最新的世界纪录，此次突破将原有最低误差记录大幅降低30%，也是继去年云从在3D人脸数据集上大幅刷新纪录后，再次在此类3D重建技术上取得重要成果。

640?wx_fmt=png

如图：Human3.6M数据集上对比

640?wx_fmt=png 如图：在Surreal数据集上的误差对比

640?wx_fmt=png

如图：UP-3D数据集上对比

3D重建领域通常以误差作为衡量算法能力的主要指标，误差就是生成模型与实际图像的差别。一般来说，误差越低，精度越高，意味着技术的性能越好。比如云从科技3D人体重建技术全身精度误差在Surreal数据集上从75.4毫米降低到52.7毫米，关节精度误差从55.8 毫米降低到40.1 毫米，Human3.6M数据集上的关节精度误差从59.9毫米降低到46.7毫米，技术的执行速度从之前的上百毫秒降低到仅需5毫秒。

技术应用

如果人工智能技术能够从二维图像得到三维图像。阿丽塔电影中，涉及专用特效设备与面部贴点来完成精细的人像采集工程量巨大的劳动，基于单帧图像的3D人体与人脸重建技术，有机会彻底颠覆电影的拍摄制作，同时降低工业级3D动画合成的门槛。

640?wx_fmt=jpeg

如果人工智能技术能够从二维图像得到三维图像。逛街买衣服想用智能设备解决试穿衣服的问题也迎刃而解。抛弃体感相机。由于对输入图像的要求低，使3D重建技术将可以利用普通光学摄像头作为感知设备。商场内试衣魔镜将会自动根据身形生成你所想要更换的衣服。

云从科技针对人体具有丰富多样的姿态和穿着的特点，提出了一套全新的基于人体3D纵深预测的3D信息表征方式。通过对三原色图像RGB，不含深度信息的分析，预测人体的3D形态和姿势，并用6万多个点完整描绘人体，从而在人体重建技术上取得速度与精度的双突破。这样模型更精细，帧率更是高达到200fps，原本由于受实时显示限制而无法实现的应用可以一一实现——这将极大地推动相关智能图像应用的落地步伐。

640?wx_fmt=png