打造有身体的 AI丨记青源Workshop具身智能与机器人研讨会（2022年第8期）

智源社区

于 2022-10-28 18:00:18 发布

阅读量1.3k

点赞数 1

文章标签：大数据算法编程语言 python 计算机视觉

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/127582098

版权

「青源Workshop」是智源研究院发起的青源会系列闭门研讨，鼓励参会者“合作 · 探索 · 实践”——探讨关于未来研究、系统、创业话题的合作设想、工作规划、协作倡议。

2022年10月9日，本年度第8期「具身智能与机器人」主题活动召开，北京大学王鹤、清华大学眭亚楠、谷歌大脑团队夏斐在会上作了关于 Sim2Real、具身智能在人体运动恢复、基于语言视觉模型规划的具身推理等话题的引导报告。30余位学者参与了本次讨论，智源社区将本次活动报告与讨论公开部分的主要内容整理如下。

以仿真的方式赋能可泛化的具身视觉与交互

王鹤丨北京大学前沿计算研究中心助理教授

从字面上看，「具身智能」即「具有身体的 AI」。狭义的具身智能已经广泛存在于生产和生活场景下（例如，仓储内机械臂的分拣操作、无人驾驶汽车），然而目前此类智能体的工作环境简单或者任务较为受限。

在家用机器人等智能体面临的复杂感知、交互场景下，智能体需要应对物体种类、几何结构、物理性质等因素的变化。智能体需要具备「可泛化的交互驱动的三维视觉」以及「可泛化的交互能力」。

然而，三维视觉数据和交互数据十分有限，我们可以利用仿真和合成数据发展可泛化的三维视觉和交互策略。

可泛化的交互驱动的三维视觉

「位姿估计」是链接计算机视觉和机器人学的重要研究问题，本质上需要预测出物体朝向的三维位姿，以往的研究大多针对数据集中已有的物体进行位姿估计。在CVPR 19 上，王鹤提出了类别级的物体位姿估计泛化表征任务。

找到各种带有标签的物体从而进行监督学习仍然需要很高的成本。为此，王鹤团队在「上下文感知的混合现实」（CAMERA）工作中考虑利用合成数据减小域之间的差异，该工作将真实的桌面场景作为背景，再将 ShapeNet 中的物体作为前景，从而构成混合现实场景，给出了物体的位姿和蒙版（mask）标注信息。合成的数据集包含约 27 万张训练图片。为了缩小前景与真实背景之间的差异，提升分割模型的泛化性能，王鹤引入了 2 万张没有位姿信息的 MS COCO 图像进行弱监督联合训练。

相较于 RGB 混合数据，真实数据和合成数据的点云之间的域差异更小。为此，王鹤考虑仅仅使用深度传感器生成的点云的几何特征实现可泛化的三维视觉。他们基于 SAPIEN 平台搭建了关节类物体的点云数据集，在 CVPR 2020 和 ICCV2021 发表的工作将类别级泛化发展到了关节类物体 9D 位姿估计和零样本位姿追踪问题上，在真实数据上取得了很好的泛化性能。

由于深度传感器在透明和高光物体上生成的点云质量较低，王鹤团队考虑使用合成数据修复此点云数据的深度信息，实现更加精准的泛化。为此，王鹤在 ECCV 2022 上发表的工作采用域随机化技术生成了具有不同材质、原色、透明度、光照、背景纹理、摄像头视角的物体。接着，针对结构光的深度传感器进行仿真，通过「真实性渲染」技术得到左 IR 图和右 IR 图，对二者进行立体匹配得到最终的仿真深度图，并基于合成的 100 万数量级的数据训练 SwinDRNet 网络。实验结果表明，这种大规模仿真数据集可以得到非常好的泛化性能。

为了更便捷地获取高质量三维视觉表征，王鹤提出了一种基于多视图可泛化神经渲染的三维视觉框架，将多视图的 RGB 图像表征融合。他们提出的方法在无需真实数据的情况下，通过多视图特征聚合网络和 TSDF 预测网络构建了场景的 TSDF，用于下游的高精度的可泛化抓取任务，也可以与 NeRF 相连作为辅助任务，帮助克服透明高光物体几何监督不充分的问题。

上述可泛化的三维视觉技术有利于实现实时的开放环境下的位姿跟踪和重建（例如，手和物体的交互）。此外，可泛化的三维视觉技术还需要用到领域自适应、视点自适应、点云的 Sim2Real、高效标注学习等技术。

可泛化的交互

最低0.47元/天解锁文章

智源社区

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
打造有身体的 AI丨记青源Workshop具身智能与机器人研讨会（2022年第8期）

「青源Workshop」是智源研究院发起的青源会系列闭门研讨，鼓励参会者“合作 · 探索 · 实践”——探讨关于未来研究、系统、创业话题的合作设想、工作规划、协作倡议。2022年10月9日，本年度第8期「具身智能与机器人」主题活动召开，北京大学王鹤、清华大学眭亚楠、谷歌大脑团队夏斐在会上作了关于 Sim2Real、具身智能在人体运动恢复、基于语言视觉模型规划的具身推理等话题的引导报告。30余位学者...
复制链接

扫一扫