论文笔记:BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Pose

BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting
the 3D Poses of Challenging Objects without Using Depth
ICCV 2017

1、Abstract

文章采用rgb图像作为输入,用2d检测的方法从复杂遮挡背景中分割出物体,并通过物体的3d bounding boxes的corners在2d的投影预测出3d姿态。
对于存在 rotational symmetry的物体,训练的时候限制了pose的范围。
训练一个分类器去确定姿态范围,在预测姿态之前可以用上。
在这里插入图片描述

2、Proposed Approach

首先在2D图像中找到物体,然后估计3d姿态,再refine姿态

2.1 Localizing the Objects in 2D

首先确定物体的(objects)2d中心,作者开发了一种基于分割的方法,因为它可以在部分遮挡的情况下提供准确的位置,从而获得更好的性能。 (只需要一个低分辨率的分割)。
二阶段的coarse-to-fine物体分割。for each level,对所有一个物体训练一个网络。第一个网络是替换VGG的最后一层为全连接层。第二个网络架构比较简单。
第一个网络训练产生物体的低像素二值分割,首先将图片resize成 512 × 384 512\times 384 512×384大小,然后分割成 128 × 128 128\times 128 128×128部分,目标方程是最小化下面的公式
∑ ( J , S , o ) ∈ T s ∣ ∣ ( f ϕ 1 ( J ) ) [ o ] − S ∣ ∣ 2 \sum_{(J,S,o)\in T_s}||(f_\phi^1(J))[o] - S||^2 (J,S,o)Ts(fϕ1(J))[o]S2
J J J 128 × 128 128 \times 128 128×128的图片区域, T S T_S TS是图片训练集,物体 o o o的对应分割 S S S ( f ϕ 1 ( J ) ) [ o ] (f_\phi^1(J))[o] (fϕ1(J))[o]是网络对区域 J J J和物体 o o o的输出。 ϕ \phi ϕ是网络参数。
对LINEMOD和Occlusion数据集,每个区域只有一个物体,但是T-LESS数据集每个区域有多个物体。,对于T-LESS数据集,用 s 1 , o ( J ) = ( f ϕ 1 ( J ) ) [ o ] > τ 1 s_{1,o}(J)=(f_\phi^1(J))[o] > \tau_1 s1,o(J)=(fϕ1(J))[o]>τ1, s 1 , o s_{1,o} s1,o是对区域 J J J物体 o o o 8 × 8 8 \times 8 8×8二值分割。 τ 1 \tau_1 τ1就是用于网络的二值分割。
于是可以得到整张图片对每个可能物体的二值分割结果 S 1 , o S_{1,o} S1,o

refine我们通过应用第二个网络来优化最大组件的形状,对于 S 1 S_1 S1中的active location,我们作用于 16 × 16 16\times16 16×16的image patch
s 2 , o ( P ) = ( f ϕ 2 ( P ) ) [ o ] > τ 2 s_{2,o}(P) = (f_\phi^2(P))[o]>\tau_2 s2,o(P)=(fϕ2(P))[o]>τ2
这个网络结构比较简单,2层的卷积层和2层池化层。最终得到了整张图片的分割结果 S 2 , o S_{2,o} S2,o
在这里插入图片描述

2.2 Predicting the 3D Pose

损失函数
∑ ( W , e , t , o ) ∈ T ∑ i ∣ ∣ P r o j e , t ( M i o ) − m i ( ( g θ ( W ) ) [ o ] ) ∣ ∣ 2 \sum_{(W,e,t,o)\in \Tau}\sum_i||Proj_{e,t}(M_i^o) - m_i((g_\theta(W))[o])||^2 (W,e,t,o)TiProje,t(Mio)mi((gθ(W))[o])2
T \Tau T是由image windows W组成的包括物体 o o o组成的训练集,由一个exponential map e e e和一个3-vector t t t组成。 M i o M_i^o Mio是物体 o o o的角点在物体坐标系的坐标。 P r o j e , t ( M ) Proj_{e,t}(M) Proje,t(M) M M M上的 3 D 3D 3D点根据 e e e t t t投射到图片。 m i ( ( g θ ( W ) ) [ o ] m_i((g_\theta(W))[o] mi((gθ(W))[o]返回了 g Θ g_\Theta gΘ输出的两个组件,对应于对象o第i个角点的预测二维坐标。
然后 3 D 3D 3D姿态可以通过 M i o M_i^o Mio和预测的 m i ( ( g θ ( W ) ) [ o ] m_i((g_\theta(W))[o] mi((gθ(W))[o]通过PnP得到。

2.3 Handling Objects with an Axis of Symmetry

限制了预测姿态的范围。

2.4 Generating Training Images

3. Experiments

LINEMOD, Occlusion, T-LESS

3.1 Evaluation Metrics

2D Projections 预测姿态的投影结果和gt的2d距离比较小于5 pixels
6D Pose
1 V ∑ M ∈ V ∣ ∣ T r e ^ , t ^ ( M ) − T r e , t ( M ) ∣ ∣ 2 \frac{1}{V}\sum_{M\in V}||Tr_{\hat e,\hat t}(M)-Tr_{e,t}(M)||_2 V1MVTre^,t^(M)Tre,t(M)2
比物体直径小10%

5 c m 5 ° 5cm5° 5cm5° Metric 物体的平移和旋转的误差小于 5 c m 5cm 5cm 5 ° 5° 5°

实验结果还是不错的

留几个问题

作者是怎样准备训练数据的,文章是说预测物体bounding box的角点在2d的投影。所以需要这个数据

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值