posecnn笔记

论文链接:https://arxiv.org/abs/1711.00199
代码链接:https://github.com/yuxng/PoseCNN
Results Video:https://paper-1257390182.cos.ap-chengdu.myqcloud.com/PoseCNN/PoseCNN.mp4

1、创新点

  1. 提出新的位置估计方法:预测物体中心点在2d图片中的像素坐标和物体距离相机的距离(利用相机的成像模型来推测实际的3d坐标)。其中物体中心在2d图片中的像素坐标用到了霍夫投票方法。
  2. 提出新的位姿估计损失函数,解决对称物体的旋转估计问题
  3. 提出了数据集:YCB-Video dataset
  4. 使用深度图并细化后,又更好的效果

2、网络结构

在这里插入图片描述
网络有3部分工作:语义分割、3D位姿估计、3D旋转估计

在这里插入图片描述

网络有两阶段:
特征提取,包括13个卷积层和4个最大池化层,共享到整个网络
嵌入步骤,将提取的高维特征嵌入到低维及三大任务的特征中

  1. 语义分割
    语义分割能处理遮挡问题。

  2. 3D平移估计
    在这里插入图片描述
    有针孔相机的物理公式:
    在这里插入图片描述
    fx、fy表示相机焦距,(px,py)是主点,这些都是已知参数。
    c是目标的二维中心,Tx、Ty、Tz是3D位移坐标
    其中Tx、Ty、Tz是要得到的参数,直接预测存在问题,因为目标可能出现在图像任意位置,不能同时处理多个实例,因此采用预测c和Tz来推算Tx和Ty。
    为了解决遮挡问题,没有直接预测c,而是预测的实际中心点在当前点的单位方位向量,
    在这里插入图片描述
    那么每个像素点都会得到中心点在当前点的方向向量和Tz的预测,然后采用霍夫投票的方法,利用非极大抑制来得到分数最高的目标中心点。
    在这里插入图片描述
    c得到了以后,Tz是直接用对应投票点预测得到的Tz的平均值。此外这个网络还会生成一个2D矩形框

  3. 3D旋转回归
    利用Hough投票层预测的目标边界框,利用两个RoI池化层对网络第一阶段生成的视觉特征进行剪裁和池化,进行3D旋转回归。
    为了训练四元数回归,提出两个损失函数,处理非对称与对称目标。
    1、PoseLoss(PLoss): 正确模型姿态上的点与相应使用估计方向上的点的平均平方误差。(非对称目标)
    在这里插入图片描述
    2、ShapeMatch-Loss(SLoss)损失函数:最近点作为对应点进行回归(对称目标)
    在这里插入图片描述

跟ICP类似,估计点与真值最近点的损失测量。

3、实验

采用平均距离矩阵(ADD)评估:
在这里插入图片描述

对于对称目标,比如蛋盒和胶水,使用最近点计算平均距离(ADD-S):
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值