论文笔记：BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Pose

最新推荐文章于 2023-08-02 14:41:01 发布

eight_Jessen

最新推荐文章于 2023-08-02 14:41:01 发布

阅读量1.4k

点赞数 1

分类专栏：论文笔记文章标签：计算机视觉深度学习机器学习人工智能

本文链接：https://blog.csdn.net/eight_Jessen/article/details/107293426

版权

论文笔记专栏收录该内容

49 篇文章 7 订阅

订阅专栏

BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting
the 3D Poses of Challenging Objects without Using Depth
ICCV 2017

1、Abstract

文章采用rgb图像作为输入，用2d检测的方法从复杂遮挡背景中分割出物体，并通过物体的3d bounding boxes的corners在2d的投影预测出3d姿态。
对于存在 rotational symmetry的物体，训练的时候限制了pose的范围。
训练一个分类器去确定姿态范围，在预测姿态之前可以用上。
在这里插入图片描述

2、Proposed Approach

首先在2D图像中找到物体，然后估计3d姿态，再refine姿态

2.1 Localizing the Objects in 2D

首先确定物体的(objects)2d中心，作者开发了一种基于分割的方法，因为它可以在部分遮挡的情况下提供准确的位置，从而获得更好的性能。（只需要一个低分辨率的分割）。
二阶段的coarse-to-fine物体分割。for each level,对所有一个物体训练一个网络。第一个网络是替换VGG的最后一层为全连接层。第二个网络架构比较简单。
第一个网络训练产生物体的低像素二值分割，首先将图片resize成 $512\times 384$ 大小，然后分割成 $128\times 128$ 部分,目标方程是最小化下面的公式
$\sum_{(J,S,o)\in T_s}||(f_\phi^1(J))[o] - S||^2$
$J$ 是 $128 \times 128$ 的图片区域， $T_S$ 是图片训练集，物体 $o$ 的对应分割 $S$ ， $(f_\phi^1(J))[o]$ 是网络对区域 $J$ 和物体 $o$ 的输出。 $\phi$ 是网络参数。
对LINEMOD和Occlusion数据集，每个区域只有一个物体，但是T-LESS数据集每个区域有多个物体。，对于T-LESS数据集，用 $s_{1,o}(J)=(f_\phi^1(J))[o] > \tau_1$ , $s_{1,o}$ 是对区域 $J$ 物体 $o$ 的 $\times 8$ 二值分割。 $\tau_1$ 就是用于网络的二值分割。
于是可以得到整张图片对每个可能物体的二值分割结果 $S_{1,o}$ 。

refine我们通过应用第二个网络来优化最大组件的形状，对于 $S_1$ 中的active location，我们作用于 $16\times16$ 的image patch
$s_{2,o}(P) = (f_\phi^2(P))[o]>\tau_2$
这个网络结构比较简单，2层的卷积层和2层池化层。最终得到了整张图片的分割结果 $S_{2,o}$ 。
在这里插入图片描述

2.2 Predicting the 3D Pose

损失函数
$\sum_{(W,e,t,o)\in \Tau}\sum_i||Proj_{e,t}(M_i^o) - m_i((g_\theta(W))[o])||^2$
$\Tau$ 是由image windows W组成的包括物体 $o$ 组成的训练集，由一个exponential map $e$ 和一个3-vector $t$ 组成。 $M_i^o$ 是物体 $o$ 的角点在物体坐标系的坐标。 $Proj_{e,t}(M)$ 将 $M$ 上的 $3 D$ 点根据 $e$ 和 $t$ 投射到图片。 $m_i((g_\theta(W))[o]$ 返回了 $g_\Theta$ 输出的两个组件，对应于对象o第i个角点的预测二维坐标。
然后 $3 D$ 姿态可以通过 $M_i^o$ 和预测的 $m_i((g_\theta(W))[o]$ 通过PnP得到。

2.3 Handling Objects with an Axis of Symmetry

限制了预测姿态的范围。

2.4 Generating Training Images

3. Experiments

LINEMOD, Occlusion, T-LESS

3.1 Evaluation Metrics

2D Projections 预测姿态的投影结果和gt的2d距离比较小于5 pixels
6D Pose
$\frac{1}{V}\sum_{M\in V}||Tr_{\hat e,\hat t}(M)-Tr_{e,t}(M)||_2$
比物体直径小10%

$5 c m 5 °$ Metric 物体的平移和旋转的误差小于 $5 c m$ ， $5 °$

实验结果还是不错的

留几个问题

作者是怎样准备训练数据的，文章是说预测物体bounding box的角点在2d的投影。所以需要这个数据

eight_Jessen

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
论文笔记：BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Pose

BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predictingthe 3D Poses of Challenging Objects without Using DepthICCV 20171、Abstract用了2d检测预测3d姿态的2d投影，对应的3d bouning box.对于存在 rotational symmetry的物体，训练的时候限制了pose的范围。训练一个分类器去确定姿态范围，在预测姿态
复制链接

扫一扫