三维姿态捕捉_KeyPose：从立体图像估计透明物体3D姿态-CSDN博客

本文链接：https://blog.csdn.net/weixin_26872803/article/details/112529353

字幕组双语原文：KeyPose：从立体图像估计透明物体3D姿态

英语原文：KeyPose: Estimating the 3D Pose of Transparent Objects from Stereo

翻译：雷锋字幕组(小哲)

在增强现实,机器人操控等涉及对象级物品感知的计算机视觉的应用中，3D物体的位置与姿势评估是一个核心的难题。在这些应用中,重要的是要知道物体的在实际世界中的三维位置信息，要么直接影响他们，要么正确的放置相似的物品在这些物体周围。虽然使用机器学习的技术特别是深度网络,在相应的主题上有很多的研究，但是，他们中的大多数都依赖于深度传感器设备，例如Kinect，这些设备可以直接给出目标的位置测量信息.对于有光泽或透明的物体，直接深度感测效果不佳。例如下边这张包含了很多物品的图(左边)，其中有两个物体是透明的，深度设备不能找到这些物体很好的深度信息,并且实际的三维重构效果非常差。(右边)

左边: 透明物体的RGB图像. 右边:四个面板的图像显示了左边场景的重构的深度图像, 上边的一行显示了重构图像,下边的一行显示了三维点云. 左边面板图像采用深度相机,右边的面板利用ClearGrasp模型输出结果. 注意，虽然ClearGraph修复了恒星的深度，但它会错误地显示最右边的一个的实际深度。

对于这个难题的一个解决方案, 例如ClearGrasp提出的方案, 就是使用深度神经网络去修复受损的透明物体的深度图。给定透明物体的RGB-D图像, ClearGrasp使用深度神经网络推测物体表面法线、透明表面的掩模和遮挡边界，用于优化场景中所有透明曲面的初始深度估计(上图中最右侧).这种方法非常有前景的, 并且允许利用依赖于深度的姿势估计的方法处理透明物体的场景.但是修复可能很难办, 特别是完全使用合成的图像进行训练时,可能会导致深度的错误。

在于斯坦福AI实验室联合发表在CVPR2020上的文章, " 在与KeyPose:从立体图者估计透明物体的三维姿态" 中, 我们介绍了一个ML系统,直接预测三维关键点来评估透明物体的深度。为了训练这个系统,我们自用自动的方式采集了一个搭的真实世界透明物体数据集,并且利用手工选定的三维关键点高效的标注他们的姿势.然后我们训练深度模型(称为KeyPose)来从单目或立体图像中端到端地估计3D关键点，而不需要显式地计算深度. 在训练过程中，模型可以处理可见和不可见的对象，包括单个对象和对象类别。虽然KeyPose可以处理单目图像，但立体图像提供的额外信息使其能够在单目图像输入的基础上将结果提高两倍, 根据对象的不同，典型误差从5毫米到10毫米不等。它在这些物体的姿态估计方面比最先进的方法有了实质性的改进，即使竞争性的方法提供了真实深度。我们正在发布keypoint标记的透明对象的数据集，供研究团体使用。

带有三维关键点标注的真实透明物体数据集

为了构建收集高质量的真实图像, 我们构建了机器人数据收集系统,着这个系统中,机械臂通过一个轨迹移动，同时用两个设备拍摄视频，一个是立体摄像头，一个是Kinect Azure深度摄像头。

使用带有立体摄像机与Azure Kinect设备的机械臂自动图像序列捕捉

目标上的AprilTags可以精确跟踪摄像机的姿态。通过在每个视频中用2D关键点手工标记少数图像，我们可以使用多视图几何体为视频的所有帧提取3D关键点，从而将标记效率提高了100倍。

我们使用10中不同的背景纹理和四种不同的姿势,捕捉15个不同的透明物体, 得到一共600个视频序列压缩为48k立体与深度图像. 我们对于不透明版本的物体捕捉相似的图像,从而提升真实深度图像的精度. 所有的图像都标注三维关键点, 我们将公开发布这个真实世界图像的数据集，以补充与之共享相似对象的合成ClearGrap数据集。

基于早期融合立体的KeyPose算法

直接使用立体图像进行关键点估计的想法的发展是独立于我们这个项目之外的；它近年来出现在手追踪的场景中, 下图显示了基本思想：在对象周围裁剪立体相机的两幅图像，并输入到KeyPose网络中，KeyPose网络预测一组稀疏的3D关键点，这些关键点代表对象的3D姿势。网络通过使用标签3D关键点的监督进行训练。

立体KeyPose的一个关键方面是使用早期融合来混合立体图像，并允许网络隐式地计算视差，而后期融合则是分别预测每个图像的关键点，然后进行组合。如下图所示，KeyPose的输出是图像平面中的2D关键点热图以及每个关键点的视差(即逆深度)热图。这两个热图的组合生成每个关键点的关键点的三维坐标。

Keypose系统的图解. 立体图像传入CNN模型来为每个关键点产生一个可能性热图. 这个热图为每个关键点给出了二维图像的坐标U, V. CNN模型也为每个关键点产生视差(逆深度)热图, 当混合U, V坐标之后,就可以给出三维位置(X,Y,Z)。

与后期融合或单目输入相比，早期融合立体像的精度通常是后者的两倍。

结果

下边的图像显示了KeyPose在单个物体上的定性结果.左边时原始立体图像,；中间是投影到物体上的预测的三维关键点；右边，我们将瓶子的三维模型中的点可视化，放置在由预测的3D关键点确定的姿势上. 网络非常高效准确, 对于这个瓶子的预测关键点MAE为5.2mm, 马克杯为10.1mm,在一个标准的GPU上仅仅需要5毫秒。

接下来的一张表格显示了KeyPose的类别层面的估计结果. 测试集使用了训练集中不存在的背景纹理。注意，MAE在5.8 mm到9.9 mm之间变化，显示了该方法的准确性。

KeyPose与最先进的DenseFusion系统在类别级数据上的定量比较。我们为DenseFusion提供两种深度版本，一种来自透明对象，另一种来自不透明对象。

关于定量结果的完整统计，以及 ablation studies ，请参阅论文和补充材料以及KeyPose网站。

总结

这篇文章展示了,不依赖于深度图像来估计透明物体的三维姿态是可能的。它验证了使用例题图像作为融合深度网络的输入, 训练这个网络直接从力图图像对中提取稀疏的三维关键点,。我们希望一个广泛,有标注的透明物体数据集的可以促进这个领域的发展。最后虽然我们使用了半自动的方法高效的标注数据集,但是在未来的工作中我们希望采用自监督的方式来代替手工的标注。

致谢

我想要感谢我的共同作者, Xingyu Liu of Stanford University, and Rico Jonschkowski and Anelia Angelova; 也有那些在项目实施与论文写作过程中,帮助我们的人, 包括: Andy Zheng, Shuran Song, Vincent Vanhoucke, Pete Florence, and Jonathan Tompson。

雷锋字幕组是一个由 AI 爱好者组成的翻译团队，汇聚五百多位志愿者的力量，分享最新的海外AI资讯，交流关于人工智能技术领域的行业变革与技术创新的见解。

团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生；志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业，北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

如果，你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起，学习新知，分享成长。

雷锋网雷锋网