论文阅读:DenseFusion
DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion
1、现存问题
根据RGB-D图像获得6D物体姿态估计的主要挑战是融合两个数据源
从RGB数据源获取信息时,遇到严重遮挡和光照问题时影响性能
refine的步骤不能和前期程序构成一体优化,影响实时性效率
2、创新点
设计了一个像素级别的RGB和深度信息融合端到端网络能够更好的处理严重遮挡问题
提出了一种迭代方法能够在端到端网络中更好的处理姿态优化问题,替代了之前方法对后续ICP refine步骤的依赖
3、内容
3.1 网络架构
网络架构主要分为两个阶段:
第一阶段用RGB图像作为输入并进行语义分割然后针对每个分割后的物体转换成3D点云给第二阶段
第二阶段处理分割结果并估计物体的6D pose。 它包括四个组成部分:(A)处理颜色信息并将图像裁剪中的每个像素映射到颜色特征嵌入的全卷积网络,(B)基于PointNet的网络 将蒙板3D点云中的每个点处理为几何特征嵌入,c)一个像素级融合网络,该网络结合嵌入并输出对该网络的6D姿态的估计 基于无监督置信度评分的对象,以及d)迭代自精炼方法,以课程学习的方式训练网络,并迭代地细化估计结果
3.2 语义分割
这个部分主要用的PoseCNN的现成的
3.3 稠密特征提取
密集的3D点云特征嵌入:之前的方法都是用CNN来处理深度信息,作为额外的图像通道,这样做忽视了深度通道的内部3D结构。另外我们第一次使用已知相机内参将分割后的深度像素转换成点云并用类Pointnet的机构来提取结构特征。
密集彩色图像特征嵌入: 彩色嵌入网络的目标是提取每个像素的特征,这样我们就可以在三维点特征和图像特征之间形成密集的对应。 图像嵌入网络是一种基于CNN的编解码结构
3.4 像素级的深度融合
文章的核心观点是利用局部每个像素的融合,而不是全局像素融合, 这样,我们就可以潜在地选择基于对象可见部分的预测,并最小化遮挡和分割噪声的影响
逐个像素的自监督置信分被用来确认哪一个姿态估计是基于特定上下文的最佳假设
3.5 6D姿态估计
这个地方是逐像素的损失函数,同时针对对称物体的损失函数使用的和普通的不同,是使用的最近点法作为匹配点,有点儿类似ICP的优化目标
3.6 迭代优化
这个地方是逐步优化的,使用RT矩阵连乘的形式,不但减少残差
4、实验和细节
自己训练一次好久啊…