©PaperWeekly 原创 · 作者|文永明
学校|中山大学硕士生
研究方向|物体位姿估计、目标检测
目录
G2L-Net:从全局到局部的 6D 位姿估计网络
PVN3D:3D 关键点投票 6D 姿态估计网络
基于可微分代理投票损失的 6D 姿态估计
G2L-Net
论文标题:G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features
论文来源:CVPR 2020
论文链接:https://arxiv.org/abs/2003.11089
代码链接:https://github.com/DC1991/G2L_Net
第一篇推荐的 CVPR 2020 论文来自伯明翰大学和国防科技大学,提出了一种新的实时 6D 目标姿态估计框架 G2L-Net,该网络在 RGB-D 探测的点云上以分治的方式运行,能节省时间,并且能达到 SOTA 的效果。这篇论文很好的是已经把代码开源放了出来。
该位姿估计模型框架流程可以分为以下三步:
第一步先从目标物体的 RGB-D 图像获得粗糙的点云。
第二步把目标物体的点云传进平移定位网络,进一步进行 3D 语义分割和估计目标物体的平移。
第三步把经过语义分割和平移后得到精细的点云转换到局部标准坐标系,用旋转定位网络来训练队点向嵌入特征估计物体的旋转。
▲ Fig 1. G2L-Net的框架示意图
笔者认为这篇文章特别之处在于两点,他们的点向嵌入特征充分利用了不同视角的信息从而提高了精度。之前大部分位姿估计模型包括 DenseFusion,它们的 refine 阶段估计得位姿是异步的,也就是先训练好粗略旋转的网络,进一步再去训练细化这个旋转。
而这篇论文另辟蹊径在旋转定位网络中估计的粗略旋转与旋转残差估计网络估计的旋转残差同步输出,从而节省了运行时间。
▲ Fig 2. 不同视点(对于一个3D物体,需要至少四个四点来覆盖)
充分利用不同视角信息的想法是来自他们发现在不同视角下全局特征是高度相关高度相似的,这限制了泛化性能,在实验部分就可以表明,在相同大小规模的数据集中,使用点向嵌入特征,由于引入的视角信息,能提高泛化能力。
▲ Fig 3. (a)相同数据规模下,G2L-Net与Frustum-P的ADD-(s)指标对比 (b)训练轮次的影响
其中的旋转定位网络由三个部分组成,如图 4 所示,先训练 A 结构的网络来预测指向关键点的单位向量,再用 B 结构来生成对于物体旋转估计的点向嵌入向量,再用 C 结构的网络来训练旋转残差。
▲ Fig 4. 旋转定位网络的结构
对于旋转定位网络,论文指出我们可以定义如下的损失函数:
其中 表示关键点的数量, 表示网络参数, 和