从单目数据生成3D模型,Meta智能眼镜摄像头校正算法揭秘

众所周知,Meta下一个目标就是AR眼镜,尽管开发AR比VR面临更多复杂的难题,因此可能还要过一段时间才能看到Meta的AR眼镜。目前,该公司已推出了第一代Ray-Ban Stories智能眼镜,特点是搭载的双摄像头不仅可以拍照,更重要的意图在于捕捉具有双目视差的3D数据,进行第一视角的分析和利用,从而推动贴近日常生活的AI应用。

通过Stories,Meta可以了解到穿戴式设备在实际应用中会出现的问题,比如摄像头、传感器被遮挡,性能下降,捕捉到的3D数据不完整等等。

在最新的论文中,Meta进一步揭秘了Stories采用的3D深度传感方案,其中包含一种新颖的实时校正算法,一种单目和双目视差网格协同设计,以及从单目数据导出3D数据集的方式。同时,该方案结合配对手机的GPU来处理3D数据,比如图像预处理、立体校正和深度估计。

据了解,该方案的重点主要是优化3D深度传感的性能,同时为了确保准确性,系统还会识别校正数据的可靠程度,不可靠时会退回至单目深度预测模式。另一方面,Meta科研人员希望让这种3D视图生成管道适用于更广泛的设备,包括比较旧的手机型号。

Meta指出,即便使用6年前发布的Galaxy S8手机,CPU计算3D视图的时间也能低至1秒,而且模型泛化能力比较好。

技术挑战

科研人员指出,立体视差预测是计算机视觉的基本问题之一,这项技术在多种领域都有广泛应用,比如AR/VR、计算摄影、机器人和自动驾驶等等。

然而,在端到端深度传感系统中合成立体图像面临许多挑战,对于移动设备来讲,算力是最大的局限。因此,Meta根据手机上有限的算力,设计了这种比较实用的3D图像处理管道。这也意味着,管道中的步骤需要协同工作,在出现故障或数据不理想时更好的进行调整,校准因不可预见因素对性能的影响(比如高温、户外)。

Meta表示:我们希望智能眼镜足够通用,因此需要让更多类型的手机与之匹配,而不能依赖于特定的硬件或机器学习加速模型。而这项研究的主要目标,则是为3D计算摄影带来最佳的用户体验。

解决方案

为了确保3D捕捉的稳定性,Meta研发了一套实时的校正系统,其优势包括:

  • 端到端3D数据处理系统,可动态调整数据处理模式;
  • 包含快速、稳定的线上校正算法;
  • 3D深度系统和单目深度系统输出格式相似;
  • 在有限的算力下,依然能达到足够准确。

细节方面,该方案的运算流程如下:将智能眼镜输出的3D数据进行出厂校正、去畸变、降采样(降低两倍)、HDR包围曝光,然后在线上校正,校正质量达标后,会输入到立体CNN网络中,然后进入渲染管道,生成涂层、纹理修复、网格等等。如果校正质量未达标,则退回到单目模式,输入到单目CNN网络中处理,然后再进入渲染管道,生成新的视角。

当然,在线校准不一定保证可靠性,当一侧摄像头被遮挡时,或者摄像头捕捉的特征数据不足时,便只能退而求其次,通过单目深度网络来预测。不管是双目深度预测还是单目深度预测,都使用相同的下游处理管道,好处是可以输出准确性高的相对视差,可以很好的满足3D捕捉和建模的目的。

另外,在生成深度视差图后,系统会裁剪最大有效区域,并保持原始的纵横比,这样做可以进一步优化3D建模的整体质量。最后一步,则是结合右侧相机预测的视差,和相应的彩色图像,渲染出三维效果。

而在新颖视图合成部分,Meta使用了基于LDI(分层深度图像)的方案来创建立体训练数据集,以创建3D合成效果。参考:Meta

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在进行Python的单目3D人体姿态检测时,我们需要使用具备一定性能和特性的摄像头。 首先,摄像头需要具备高清晰度的图像采集能力,以确保捕捉到的人体图像能够提供足够详细的信息。一般来说,采用至少1080p分辨率的摄像头是很常见的选择,以保证图像质量较高。 其次,摄像头应具备高帧率的拍摄功能,能够在短时间内连续捕捉到多个图像帧。这对于单目3D人体姿态检测来说非常重要,因为姿态检测算法需要对连续帧之间的变化进行分析和计算,高帧率能够提供更精确的结果。 此外,摄像头还需要具备适应不同环境光照条件的能力,以确保图像质量在各种光照条件下都能得到保证。一些摄像头可能具备自动曝光和自动对焦功能,可以根据环境光照自动调整参数,提供更好的图像质量。 最后,摄像头应该具备稳定性和可靠性,能够在长时间工作中保持良好的运行状态。这样能够确保姿态检测算法的运行稳定性,并且减少因为摄像头自身问题对检测结果造成的影响。 综上所述,进行Python的单目3D人体姿态检测时,我们需要选择一款具备高清晰度、高帧率、适应不同光照条件、稳定可靠的摄像头来进行图像采集。 ### 回答2: 对于使用Python进行单目3D人体姿态检测,摄像头的选择是非常重要的。下面是一些常见的摄像头类型,可供选择: 1. USB摄像头:这是最常见的摄像头类型,适用于PC或笔记本电脑。Python可以通过OpenCV库来对USB摄像头进行图像捕获和处理。一般来说,具有较高分辨率和帧率的USB摄像头可以提供更准确的人体姿态检测结果。 2. IP摄像头:这种类型的摄像头通过网络连接,可以通过IP地址来访问视频流。Python可以使用OpenCV库或其他网络摄像头库来访问IP摄像头的视频流,并进行人体姿态检测。IP摄像头通常具有更高的分辨率和增强的图像处理能力,可以提供更高质量的视频流。 3. 深度摄像头:深度摄像头可以获取场景中每个像素的距离信息,可以用于更准确地估计人体姿态。例如,Intel RealSense深度摄像头使用Python可以进行实时深度图像捕获和处理。深度摄像头可以通过计算距离并结合图像处理算法来提供更准确的人体姿态检测结果。 4. 红外摄像头:红外摄像头可以捕获人体的红外热图像,通过检测人体的热力分布来推断姿态。Python可以使用OpenCV库或其他红外图像处理库来处理红外摄像头图像。使用红外摄像头进行人体姿态检测可以在低光或无光的情况下提供可靠的结果。 综上所述,对于Python单目3D人体姿态检测,可以根据项目需求选择合适的摄像头类型。常见的选择包括USB摄像头、IP摄像头、深度摄像头和红外摄像头。根据应用场景的特点和要求,选择适合的摄像头能够提高人体姿态检测的准确性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值