目的:6D位姿估计
使用网络:CNN
应用场景:杂乱无章
传统方法:通过匹配特征点,再求位姿(要求:图片有丰富的纹理)
发展:深度相机出现后,通过回归像素到3D对象坐标建立2D-3D关联(不能处理对称的对象)
related work:
方式一:基于模板,通过渲染相应的3D模型来的获得模板(能够处理少纹理对象,不能处理闭合)
方式二:基于特征,提取局部特征进行2D-3D匹配(处理闭合,但需要足够的纹理)
PoseCNN:
网络结构:
第一阶段:(semantic labels)
1.预测图片中每个像素的对象标签(较好的处理闭合)
2.通过预测每个像素到中心的单位向量来估计对象中心的2D像素坐标
3.使用语义标签,将像素和中心点关联起来