IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14-19 日在美国西雅图举行。近日,大会官方论文结果公布,旷视研究院 16 篇论文被收录,研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像等众多领域,取得多项领先的技术研究成果,这与即将开源的旷视AI平台Brain++密不可分。
本文是旷视CVPR2020论文系列解读第 1 篇,提出一种新颖的基于单张 RGBD 图像的物体6D位姿估计算法;不同于现有的直接回归位姿参数的方法,它开创性地提出用深度神经网络检测 3D 关键点来解决单目 6D 位姿估计这个问题。论文代码已开源。
论文名称:PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation
论文链接:https://arxiv.org/abs/1911.04231
论文代码:https://github.com/ethnhe/PVN3D.git
目录
导语
简介
方法
-
概述
学习算法
-
3D关键点检测模块
实例语义分割模块
多任务学习
实验
-
在YCB-Video和LineMOD基准上的实验结果
消融实验
结论
参考文献
导语
本文的研究课题是 6DoF 位姿估计,即在标准框架下识别一个物体的 3D 定位和方向。该技术是许多实际应用的一个重要组件,比如机器人、自动驾驶、增强现实等。
由于光线变化、传感器噪声、场景遮挡及物体截断等,6DoF 估计一直是一个颇具挑战性的问题,传统方法使用手工设计的特征,提取图像与物体网格模型之间的对应关系,但是这些人工设计的特征在明暗变化及严重遮挡的场景下表现不尽人意。
近期,随着机器学习与深度学习技术的爆发,深度神经网络(DNN)被用于解决这一任务,并取得显著效果。一些方法提出直接使用 DNN 回归物体的旋转和平移变换参数,但是由于旋转空间是非线性的,这些方法的泛化性往往较差。
另一些方法则通过 DNN 检测一个物体的 2D 关键点,再通过2D到3D点的对应关系使用PnP算法计算 6D 位姿参数。尽管这种两阶段的方法更加稳定,但 PnP 算法构建在最小化 2D 投影误差上,而 2D 上的小误差在真实的 3D 空间中会被放大很多。而且,3D 空间中的不同关键点可能会在 2D 投影后发生重叠,变得难以区分;更重要的,刚体的几何约束信息会由于相机的投影操作而部分损失。
另一方面,随着 RGBD 传感器和数据集的普及,额外的深度信息允许研究者将 2D 算法扩展至 3D 空间,并在 3D 物品检测等问题上取得了良好的性能。本文充分利用了刚体的几何约束信息,提出了一个基于 3D 关键点投