Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images—2015
综合学习分析RGB-D图像中的6D姿态估计(用CNN)
文章利用卷积神经网络(CNN)作为概率模型,替换【5】中原有的能量方程形式,比较观察图像和渲染图像间的差异,直接输出能量值。而非《Inferring 3d object pose in RGB-D images》中直接输出目标姿态。Our framework is probabilistic. The posterior distribution of the pose is modelled as a Gibbs distribution with a CNN as energy function.
摘要
- 综合分析法:是将观察结果与前向过程的输出进行比较,例如特定姿势中感兴趣对象的渲染图像。但由于遮挡或复杂的传感器噪声使其难以进行比较。
- 基于此,文章提出了一种“学会比较”的方法,通过**卷积神经网络(CNN)比较观察图像和渲染图像来描述特定物体姿态的后验密度。CNN采用最大似然范式进行训练。
- 我们根据经验观察到CNN并不专门针对特定物体的几何形状或外观。它可以用于具有截然不同的形状和外观以及不同背景的物体。
- 与最先进的技术相比,我们展示了两个不同数据集的显着改进,包括总共11个对象,杂乱的背景和重度遮挡。
主要贡献