CVPR 2020最新热点：物体位姿估计

最新推荐文章于 2024-06-25 09:40:45 发布

PaperWeekly

最新推荐文章于 2024-06-25 09:40:45 发布

阅读量1.8k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/106368426

版权

本文介绍了CVPR 2020上关于物体位姿估计的三篇论文，包括G2L-Net、PVN3D和基于可微分代理投票损失的6D姿态估计方法。G2L-Net通过全局到局部的策略实现实时6D位姿估计，PVN3D利用3D关键点投票提高精度，而DPVL提出可微分代理投票损失以减少估计误差。这些方法在LINEMOD数据集上展示了良好的性能。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜文永明

学校｜中山大学硕士生

研究方向｜物体位姿估计、目标检测

目录

G2L-Net：从全局到局部的 6D 位姿估计网络
PVN3D：3D 关键点投票 6D 姿态估计网络
基于可微分代理投票损失的 6D 姿态估计

G2L-Net

论文标题：G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features

论文来源：CVPR 2020

论文链接：https://arxiv.org/abs/2003.11089

代码链接：https://github.com/DC1991/G2L_Net

第一篇推荐的 CVPR 2020 论文来自伯明翰大学和国防科技大学，提出了一种新的实时 6D 目标姿态估计框架 G2L-Net，该网络在 RGB-D 探测的点云上以分治的方式运行，能节省时间，并且能达到 SOTA 的效果。这篇论文很好的是已经把代码开源放了出来。

该位姿估计模型框架流程可以分为以下三步：

第一步先从目标物体的 RGB-D 图像获得粗糙的点云。
第二步把目标物体的点云传进平移定位网络，进一步进行 3D 语义分割和估计目标物体的平移。
第三步把经过语义分割和平移后得到精细的点云转换到局部标准坐标系，用旋转定位网络来训练队点向嵌入特征估计物体的旋转。

▲ Fig 1. G2L-Net的框架示意图

笔者认为这篇文章特别之处在于两点，他们的点向嵌入特征充分利用了不同视角的信息从而提高了精度。之前大部分位姿估计模型包括 DenseFusion，它们的 refine 阶段估计得位姿是异步的，也就是先训练好粗略旋转的网络，进一步再去训练细化这个旋转。

而这篇论文另辟蹊径在旋转定位网络中估计的粗略旋转与旋转残差估计网络估计的旋转残差同步输出，从而节省了运行时间。

▲ Fig 2. 不同视点（对于一个3D物体，需要至少四个四点来覆盖）

充分利用不同视角信息的想法是来自他们发现在不同视角下全局特征是高度相关高度相似的，这限制了泛化性能，在实验部分就可以表明，在相同大小规模的数据集中，使用点向嵌入特征，由于引入的视角信息，能提高泛化能力。

▲ Fig 3. (a)相同数据规模下，G2L-Net与Frustum-P的ADD-(s)指标对比 (b)训练轮次的影响

其中的旋转定位网络由三个部分组成，如图 4 所示，先训练 A 结构的网络来预测指向关键点的单位向量，再用 B 结构来生成对于物体旋转估计的点向嵌入向量，再用 C 结构的网络来训练旋转残差。

▲ Fig 4. 旋转定位网络的结构

对于旋转定位网络，论文指出我们可以定义如下的损失函数：

其中表示关键点的数量，表示网络参数，和

最低0.47元/天解锁文章

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。