CVPR2020 | 旷视研究院提出PVN3D:基于3D关键点投票网络的单目6DoF位姿估计算法

旷视研究院在CVPR2020发表论文PVN3D,提出一种基于单张RGBD图像的物体6D位姿估计算法,通过3D关键点投票网络显著提升6DoF估计精度。这种方法利用刚体几何约束,超越当前最佳性能。
摘要由CSDN通过智能技术生成


IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14-19 日在美国西雅图举行。近日,大会官方论文结果公布,旷视研究院 16 篇论文被收录,研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像等众多领域,取得多项领先的技术研究成果,这与即将开源的旷视AI平台Brain++密不可分。

 

本文是旷视CVPR2020论文系列解读第 1 篇,提出一种新颖的基于单张 RGBD 图像的物体6D位姿估计算法;不同于现有的直接回归位姿参数的方法,它开创性地提出用深度神经网络检测 3D 关键点来解决单目 6D 位姿估计这个问题。论文代码已开源。

  • 论文名称:PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation

  • 论文链接:https://arxiv.org/abs/1911.04231

  • 论文代码:https://github.com/ethnhe/PVN3D.git

目录

 

  • 导语

  • 简介

  • 方法

    • 概述

    • 学习算法

      • 3D关键点检测模块

      • 实例语义分割模块

      • 多任务学习

  • 实验

    • 在YCB-Video和LineMOD基准上的实验结果

    • 消融实验

  • 结论

  • 参考文献

导语

本文的研究课题是 6DoF 位姿估计,即在标准框架下识别一个物体的 3D 定位和方向。该技术是许多实际应用的一个重要组件,比如机器人、自动驾驶、增强现实等。

 

由于光线变化、传感器噪声、场景遮挡及物体截断等,6DoF 估计一直是一个颇具挑战性的问题,传统方法使用手工设计的特征,提取图像与物体网格模型之间的对应关系,但是这些人工设计的特征在明暗变化及严重遮挡的场景下表现不尽人意。

 

近期,随着机器学习与深度学习技术的爆发,深度神经网络(DNN)被用于解决这一任务,并取得显著效果。一些方法提出直接使用 DNN 回归物体的旋转和平移变换参数,但是由于旋转空间是非线性的,这些方法的泛化性往往较差。

 

另一些方法则通过 DNN 检测一个物体的 2D 关键点,再通过2D到3D点的对应关系使用PnP算法计算 6D 位姿参数。尽管这种两阶段的方法更加稳定,但 PnP 算法构建在最小化 2D 投影误差上,而 2D 上的小误差在真实的 3D 空间中会被放大很多。而且,3D 空间中的不同关键点可能会在 2D 投影后发生重叠,变得难以区分;更重要的,刚体的几何约束信息会由于相机的投影操作而部分损失。

 

另一方面,随着 RGBD 传感器和数据集的普及,额外的深度信息允许研究者将 2D 算法扩展至 3D 空间,并在 3D 物品检测等问题上取得了良好的性能。本文充分利用了刚体的几何约束信息,提出了一个基于 3D 关键点投

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值