这几天在开题,索性把以前看过的,没看过的或者看了之后忘记的论文再看一遍,记录一下。
PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes
1. 摘要
- 通过确定物体在图片中的中心,并且预测距离相机的距离来估计T,通过回归一个四元数来得到R。
- 提出YCB-Video数据集,21个物体,92段视频,133827帧。
- 新颖的损失函数,处理对称物体的
- 网络是输入rgb图的,如果输入depth图优化pose,可以达到SOTA
- 开源地址
2. 简介
PoseCNN干三个工作:
- 预测每个像素的label
- 预测每个物体的在图片中的中心(所有像素投票)
- 预测中心距离相机的距离,在已知相机内参的情况下,可以计算出T
R的预测是一个四元数。