PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation 论文和代码理解
Why
解决什么问题
为了解决6DoF的遮挡和截断问题。
许多现在的方法都是二阶段的,先预测关键点,然后用PnP来做位姿估计,但是这些方法只能通过回归他们的图像坐标或热图来定位一些稀疏点,对遮挡和截断很敏感。
本文创新点
- 作者使用了一种逐像素投票网络(PVNet)来回归逐像素的指向关键点的向量,并且用这些向量给关键点位置投票,能更好地定位遮挡和截断关键点。
- 创造了关键点位置的不确定性机制,能更好的利用PnP
本文IDEA来源
作者这个idea的来源是一个刚体的性质:一旦我们看到了刚体的一部分,那我们就能够推断出其他部分的相对方向
流程一览
作者设计网络来预测逐像素的分割和向量场,以此来生成假设点。
向 量 场 向量场 向量场
所以作者为什么不直接预测关键点?
- 解决遮挡和截断需要更密集的预测,在遮挡或截断的情况下,关键点的特征已经检测不到了,所以直接预测cell中的关键点分数在这种情况是行不通的。
- 向量场这种表达方式,比起坐标或热图的表达,更强迫网络去关注目标的局部特征和物体的部位之间的空间关系,所以看不见的物体部分能由看的见的部分推测出来,并且减轻杂乱的背景的影响,能正确定位看不到的或在图像外面的关键点。
- 稠密的输出为PnP处理不精准的关键点预测提供了丰富的信息,能给PnP更多的自由度,使预测效果更好。
之后,用改进的RANSAC算法来根据投票结果选择inlier点(预测效果好的点),抛弃一些预测效果不好的点。
关 键 点 投 票 关键点投票 关键点投票
得到一些inlier预测的假设点后,根据假设点的均值和协方差,生成最终的预测的关键点。然后根据PnP算法得到 R , t R,t R,t。
这里,作者和之前其他的方法不一样,由上图可以看出,作者的关键点都在物体表面上,而不是直接预测的包围盒的角点,这是为什么?
- 包围盒上的点离物体的像素位置更远,信息不如物体上的像素准确。
- 通过实验得出,物体上的关键点的方法比起物体外角点的方法,方差更小,说明更准确,平衡性能和精度后选了8个物体上关键点。
How
准备工作
render、fuse
B l e n d e r r e n d e r i n g Blender\ rendering Blender rendering
f u s i o n fusion fusion
FPS算法
以点云第一个点,作为查询点,从剩余点中,取一个距离最远的点;
继续以取出来的点,作为查询点,从剩余点中,取距离最远的点。此时,由于已经取出来的点的个数大于1,需要考虑已经选出来的点集中的每个点。计算逻辑如下:
- 对于任意一个剩余点,计算该点到已经选中的点集中所有点的距离;
- 取最小值,作为该点到点集的距离;
- 计算出每个剩余点到点集的距离后,取距离最大的那个点。
- 重复第2步,一直采样到目标数量N为止。
PnP算法
神经网络预测
backbone
用预训练的ResNet-18来作为backbone,然后做出了三个修改:
- 在size是 H / 8 × W / 8 H/8 \times W/8 H/8×W/8的特征图的位置取消了池化
- 为了保证感受野不变,随后的卷积用适当的膨胀卷积代替
- 原来的ResNet-18中的全连接层都用卷积层代替
Dilated conv:
dilated的好处是不做pooling损失信息的情况下,加大了感受野,让每个卷积输出都包含较大范围的信息。
⌊ H i n + 2 × padding [ 0 ] − dilation [ 0 ] × ( kernel_size [ 0 ] − 1 ) − kernel_size [ 0 ] stride [ 0 ] + 1 ⌋ \left\lfloor\frac{H_{in} + 2 \times \text{padding}[0] - \text{dilation}[0]\times (\text{kernel\_size}[0] - 1) -\text{kernel\_size}[0]}{\text{stride}[0]} + 1\right\rfloor ⌊stride[0]Hin+2×padding[0]−dilation[0]×(kernel_size[0]−1)−kernel_size[0]+1⌋
膨 胀 卷 积 特 征 图 尺 度 变 化 膨胀卷积特征图尺度变化 膨胀卷积特征图尺度变化
⌊ 28 + 2 × 2 − 2 × ( 3 − 1 ) − 1 1 + 1 ⌋ \left\lfloor\frac{28 + 2 \times 2 - 2\times (3 - 1) - 1}{1} + 1\right\rfloor ⌊128+2×2−2×