GDR网络:用于单目6D物体姿态估计的几何引导直接回归网络
- RGB图像直接估计6D位姿是一个重要问题。目前有两种方法:
- 非直接策略。建立image平面的2D坐标和目标体空间的3D坐标的对应关系,然后应用PnP或者RANSAC算法求取6自由度的估计量。 问题:是二阶段模型,不是端到端。很难在运用在求解differentiable poses的问题上。
- 直接回归的策略。一般没有基于几何方法的二阶段模型效果好。
这篇文章提出一种有几何信息指导的直接6D位姿回归网络。 GDR-Net。
一、 介绍
6D位姿估计的传统方法会更多依赖于深度信息,而且使用单目摄像头的方法也很落伍。但是随着cnn的兴起,没有深度信息的单目摄像头估计6D姿态的技术得到了大幅度的提升。
过去的方法包括学习一个嵌入子空间来学习姿态或者是直接回归这六个自由度,虽然这些都不错,但是和建立2D-3D对应关系再利用几何关系计算出六自由度的方法相比精度不够。
可是这种二阶段方法虽然精度高,但是它们有着一些问题。首先这些方法通常用的是对应回归的替代目标来学习,换句话说就是可能两组对应关系是两个完全不同的姿态却可能有相同的平均误差。第二点是因为是二阶段的,所以他们对于6D姿态的估计是不可微的。不能和采用未标注的真实数据的子监督学习进行融合。同时,如果你采用RANSAC方法来计算六自由度也是非常的耗时。
现在有一些工作针对二阶段模型在backpropagation中不可微分的问题做出了一些工作,要么是表现不好,要么只是在部分场景适用。
我们主要做了两点贡献,第一是关注直接6D位姿估计中的要点,比如用什么变量来表示姿态参数等。第二利用基于稠密对应关系(2D-3D)中的中间表示变量来指导并提高直接6D位姿回归的的效果。
二、相关工作
在单目6D自由度估计中的最近工作。
间接法: 首先建立2D-3D的对应关系,然后用基于PnP算法的RANSAC的变式解决6D位姿估计问题。例如计算3D中固定控制点(比如3D边界框的8个顶点)的2D映射。最近都趋向于预测密集对应而不是稀疏对应,GAN网络的应用可以增强稳定性,利用小片段解决姿态混淆的问题(例如对称物体的姿态估计不准)。
直接法:要么利用点匹配损失,要么利用针对每个组分的分离损失。还有通过将旋转角度离散成不同分箱的方法将回归问题变成分类问题。也有其他方法尝试在优化中解决代理任务的,他们有提出基于距离变换的边界对齐损失以及利用可微渲染允许对未标记的样本进行训练。
可微分的间接方法: 这