PVNet:
论文摘要:
本文解决在severe occlusion or truncation条件下从single RGB图像中做6D姿态估计。最近的主流方法采用two-stage的思路,先检测关键点再求解Perspective-n-Point(PnP)问题,取得remarkable performance。然而,它们只通过回归image coordinates or heatmaps定位出一组稀疏关键点,受遮挡和截断影响严重。本文提出Pixel-wise Voting Network(PVNet)逐像素回归指向关键点的矢量,并使用其对关键点位置进行投票,可处理occluded or truncated关键点。另外这种表示的特征是它提供了关键点位置的不确定度,可进一步由PnP求解器leveraged。https://zju3dv.github.io/pvnet/
网络结构:
网络图示
网络描述:
Backbone网络:ResNet-18
损失函数:学习单位矢量使用l1损失
输入输出:
输入:HxWx3 image
输出:HxWx(Kx2xC)张量,表示矢量;HxWx(C+1)张量,表示类别概率
关键技术
Dense predictions: pixel-wise or patch-wise estimates for the final output or intermediate representations.
Voting scheme: 受启发自“看见刚体的一部分,可推断出其它部分的相对位置“的特性。
Vector-field: PoseCNN使用了类似的思想检测目标,本文用来定位关键点。