目的:从RGB图片中估计6d位姿
方法:首先利用图片集训练网络对图片纹理的感知,将可变模型(基于外观的概率或统计模型)和由卷积网络预测的语义关键点结合,然后利用语义关键点推测类内的形状变量,相机位姿是由弱透视或全方位的相机模型模型化,通过最大化参数化可变模型和2d语义关键点的几何一致性进而估计6d位姿。
贡献:第一,上面的方法;第二,无需任何位姿初始化就能在混乱场景中精确定位6d位姿
手段:主要三个步骤:对象检测,关键点定位,位姿优化
A.关键点定位
网络名称:‘stacked hourglass’
网络结构:RGB图片(输入)——>热度图集(输出)代表关键点的可信度,由前一部分和后一部分组成,前者输出中间热度图,后者输出优化后的热度图。
B.位姿优化
PnP:容易受闭环和错误检测影响
Ours:用一个易变形的模型去匹2d检测
说明:每个对象使用3D CAD模型+注释的关键点来生成一个形状易变的模型,第p个关键点在3D模型上的定位由
6DoF Object Pose from Semantic KeyPoints——自我理解
最新推荐文章于 2022-07-02 20:17:45 发布