6D位姿是什么?
给定输入图片,6D位姿估计是估计从物体坐标系O到相机坐标系C的刚性转换,包括3D旋转R和3D平移T。其中,T决定物体在图片中的位置和比例,R根据物体的3D形状和表面纹理信息影响物体外观。
6D位姿求解方法分类?
根据输入数据的不同,大致分为3类:
- RGB图像输入;
- 点云(point cloud)输入;
- RGB + 点云输入。
基于RGB图片的6D位姿估计
对于RGB图片的输入,传统方法首先从输入图片中提取特征,再将这些特征与已有的3D模型匹配,最后通过Perspective-n-Point(PnP)算法建立2D-3D坐标的对应关系,从而估计目标物体的6D位姿。对于纹理信息丰富的物体,基于特征匹配的位姿估计方法速度快、鲁棒性好,然而,对于弱纹理物体或者物体间遮挡严重时,基于特征匹配的方法往往会失败;基于模板匹配的方法常用来处理低纹理的物体,Hausdorf和Hsiao等提出通过不同距离的策略匹配输入图片和3D模型,但是当场景混叠或者物体表面发生形变时,基于模板匹配的方法会失败。近年来,随着计算机视觉的发展,基于深度卷积网络(CNN)的6D位姿估计算法获得了巨大的成功,成为当前的主流,主要呈现2大发展趋势。一方面,基于CNN直接从RGB图片中估计物体6D位姿。Kendall等基于CNN结构提出PoseNet,直接从RGB图回归6D相机位姿;Xiang等人通过聚类模型的3D特征,估计物体6D位姿;Mousavian等人通过单一视图的几何约束,估计3D物体参数并恢复6D位姿;Wadim等人基于SSD框架提出SSD-6D如下图所示,通过InceptionV4分支将输入映射为6个不同尺度的特征图,再分别与大小为(4+C+V+R)的卷积核进行卷积,以确定类别、2D边界框、视觉点和平面旋转角度,再通过映射关系获取6D位姿;2018