ICCV 2021 Oral | 基于点云的类级别刚体与带关节物体位姿追踪

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

导  读

本文是计算机视觉领域顶级会议 ICCV入选论文《基于点云的类级别刚体与带关节物体位姿追踪(CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects from Point Clouds)》的解读。该工作由北京大学前沿计算研究中心陈宝权课题组与斯坦福大学/北京大学王鹤等合作完成,论文共同一作翁伊嘉为2021届图灵班学生。

项目主页:https://yijiaweng.github.io/CAPTRA/

论文地址:https://arxiv.org/abs/2104.03437

01

引   言

物体位姿包含相机坐标系下物体的三维平移与三维旋转,在计算机视觉与机器人学中有着广泛应用,如指导机器人抓取与操纵物体,在增强现实中将虚拟内容叠加在真实物体上等。不同于只能应用于已知物体的实例级别位姿估计,[1] 提出的类级别物体位姿估计问题要求对来自已知物体类别、与训练物体存在几何差异的未知测试物体进行九自由度的位姿估计,即估计物体的三维尺寸、三维平移、三维旋转,更适用于实际应用中形状外观各异的真实物体。[2] 进一步将对刚性物体的位姿估计拓展到带关节物体(如笔记本电脑、抽屉、眼镜)上,为理解和模仿人类与带关节物体之间的复杂互动奠定了基础。

目前,大部分类级别物体位姿估计的工作聚焦于单帧位姿估计,而我们希望能对连续多帧观测进行时序上平滑的物体位姿追踪,从而更好地服务于增强现实、基于实时反馈的闭环控制等应用。我们提出了首个可以同时应用于刚性物体和带关节物体,运行在类级别场景下的九自由度位姿追踪框架。给定当前帧的深度点云与上一帧的物体位姿估计,本文提出的框架能通过端到端的训练,准确地更新位姿估计,在估计准确率与运行速度上都超过了已有的最好方法。

02

方法简介

图1. 类级别物体位姿追踪任务

如上图,给定包含实例   的实时深度点云流   ,其逐部件初始位姿估计   ,我们希望在线地追踪其各部件位姿   。具体来说,我们逐帧进行位姿估计,在   帧,基于第   帧的各部件位姿估计   与第   帧的深度点云观测   ,估计第   帧的各部件位姿   。

仿照[1],我们将九自由度位姿   进一步分解为七自由度相似变换   与三维长宽高比例   ,以下主要讨论   的估计,细节请参见论文。

位姿估计存在两类主流方法,基于坐标预测的方法首先为观测点预测其对应物体点在归一化物体坐标系中的坐标,利用观察坐标与归一化物体坐标之间的对应关系,使用 RANSAC 拟合物体位姿,得益于 RANSAC 对离群点的有效移除,该方法通常能获得更为准确与鲁棒的预测,但 RANSAC 算法中的假设采样较为耗时,其过程也不可微,无法直接针对位姿进行优化;基于位姿回归的方法进行端到端可微的直接预测,能够达到很高的运行速度,但容易产生更大的预测误差。我们希望结合两类方法的优势,建立一个端到端可微、精度与速度兼备的位姿追踪系统。

如下图所示,我们的模型由位姿正规化(Pose Canonicalization)、旋转回归网络(RotationNet)与坐标预测网络(CoordinateNet)组成。

图2. 我们的位姿追踪框架

位姿正规化(Pose Canonicalization)

为了简化将输入点云坐标   映射到输出相似变换   的学习问题,我们将前一帧位姿估计   的逆变换与输入点云   相乘,得到位姿正规化点云   作为模型输入,令模型输出   中部件   的位姿   ,再间接计算   。

由时序连续性,可以推出   ,这意味着   中部件   总是接近正规位姿(canonical pose),   接近恒等变换,原问题的输入与输出被同时正规化,从而大大降低了网络预测位姿的难度。

旋转回归网络(RotationNet)

以位姿正规化的点云   为输入,我们训练旋转回归网络,直接对   进行回归,再计算原始旋转   总在恒等变换附近,直接回归就能实现准确估计。

坐标预测网络(CoordinateNet)

由于点云   不完整,存在平移与尺寸上的歧义(举例来说,当一支铅笔的一端被遮住时,铅笔的长度无法确定,其中心的平移也无法确定),直接回归   和   仍然很困难。我们转而训练坐标预测网络,从   预测部件在归一化坐标系下的坐标   ,这一稠密的预测目标要求网络能捕捉到类级别的物体几何先验知识,包含了更为准确的有关物体平移、物体尺寸的信息。

基于归一化坐标   与原始点云   的对应关系与旋转回归网络的预测   ,我们解析地计算物体的平移与尺寸。在位姿正规化模块的帮助下,我们预测的   相当准确,无需 RANSAC 就能达到高精度的位姿估计,从而实现一个快速、端到端可微,能直接以 9DoF 位姿准确度为优化目标的计算框架。

03

结果展示

我们的方法在类级别刚性物体位姿估计数据集 NOCS-REAL275 [1]、基于 SAPIEN [3] 的类级别带关节物体位姿估计数据集、BMVC [4] 上均超过了已有方法,以下展示部分定性结果,详细实验设定与定量结果请参见论文。

刚性物体位姿追踪

我们在 NOCS-REAL275 真实世界数据集上与类级别刚性物体追踪算法 6-PACK 进行比较,使用三维包围盒表示九自由度位姿估计,绿色表示追踪误差≤5º5cm,红色表示追踪误差>5º5cm。我们产生的追踪结果更加准确。

图3. NOCS-REAL275上的类级别刚性物体位姿追踪

带关节物体位姿追踪

由于没有现成的类级别带关节物体位姿追踪数据集,我们基于 SAPIEN [3] 生成了一个合成数据集,并在其上对比我们的方法与类级别带关节物体位姿估计算法 ANCSH [2]。我们的追踪结果更加准确、平滑,对自遮挡更加鲁棒。

图4. SAPIEN合成数据集上的类级别带关节物体位姿追踪

我们进一步在真实世界的带关节物体数据上测试我们的模型。在 BMVC [4] 数据集的笔记本电脑序列、我们采集的剪刀序列、机械臂操纵抽屉序列上,我们仅在合成数据上训练的模型均能成功泛化,达到对物体的准确追踪。

图5. 左:BMVC数据集中的笔记本电脑序列;右:我们采集的剪刀序列

图6. 机械臂操纵抽屉序列

04

结   语

本文提出了一个端到端可微的位姿追踪框架,能同时处理类级别刚性物体与带关节物体九自由度位姿追踪问题,在多个数据集上达到了 SOTA 效果。未来可能的研究方向包括对关节限制的进一步利用,向部件个数不固定、部件连接关系不固定的带关节物体类别拓展等。

参考文献

[1] He Wang, Srinath Sridhar, Jingwei Huang, Julien Valentin, Shuran Song, and Leonidas J Guibas. Normalized object coordinate space for category-level 6D object pose and size estimation. CVPR 2019.

[2] Xiaolong Li, He Wang, Li Yi, Leonidas J Guibas, A Lynn Abbott, and Shuran Song. Category-level articulated object pose estimation. CVPR 2020.

[3] Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas J. Guibas, and Hao Su. SAPIEN: A simulated part-based interactive environment. CVPR 2020.

[4] Frank Michel, Alexander Krull, Eric Brachmann, Michael Ying Yang, Stefan Gumhold, and Carsten Rother. Pose estimation of kinematic chain instances via object coordinate regression. BMVC 2015.

ICCV

IEEE International Conference on Computer Vision(IEEE ICCV),即国际计算机视觉大会,是计算机视觉领域国际顶级会议(CCF A类),与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。ICCV在世界范围内每两年召开一次,ICCV 2021将于2021年10月11-17日在线举行。

图文 | 翁伊嘉

Visual Computing and Learning (VCL)

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值