EPOS: Estimating 6D Pose of Objects with Symmetries

最新推荐文章于 2022-09-23 16:56:30 发布

Fly_To_Sky666

最新推荐文章于 2022-09-23 16:56:30 发布

阅读量1.3k

点赞数

分类专栏：物体位姿估计文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_40378982/article/details/115400882

版权

物体位姿估计专栏收录该内容

9 篇文章

订阅专栏

EPOS

1 表面面片
2 网络架构
3 对称物体
4 位姿求解

EPOS本质上也是一种基于2D-3D稠密对应的6D位姿估计方法，只不过它不是直接回归得到物体图像区域某像素对应的归一化的三维坐标点，而是将物体三维模型表面分割成一定数量的面片，这样在确定2D-3D对应关系时，首先是确定二维像素点对应的面片(这是一个分类问题)，然后再回归得到三维点相对于该面片局部坐标系的坐标。
这种间接地确定2D-3D对应关系的方法还有一个好处就是考虑了目标物体是对称物体时的多对多的关系(这里的多对多指的是图像中对称物体的某一个像素可能对应了多个三维模型点，并且三维模型上的一点也可能对应了多个图像上的点，见上图)。

1 表面面片

假设某个数据集包含了 $m$ 个物体，则每个物体的三维模型都可以通过一组顶点 $V_i$ 和一组三角面片 $T_i$ 表示，其中， $i\in I=\{1,...,m\}$ 。物体三维模型的表面 $S_i$ 可以根据下式分为 $n$ 个面片：
$S_{ij}=\{\boldsymbol x|\boldsymbol x\in S_i\wedge d(\boldsymbol x,\boldsymbol g_{ij})<d(\boldsymbol x,\boldsymbol g_{ik})\}\\ \forall k\in J,k\not=j \tag{1}$
其中， $j\in J=\{1,...,n\}$ ， $d(\cdot)$ 表示空间中两个点的欧式距离， $\{\boldsymbol g_{ij}\}_{j=1}^n$ 表示每个面片预先选定的中点，表面面片的中点通过FPS算法确定(从物体模型的重心点开始迭代选择距离当前点集最远的点，最后将重心点删除)。

2 网络架构

architecture
网络整体是一个Encoder-Decoder型的结构，输入一张RGB图像，输出为原尺寸大小，但通道数为 $4 m n + m + 1$ 的张量，输出张量表示了三部分结果。

2.1 语义分割

输出中的 $m + 1$ 个通道表示二维像素点 $\boldsymbol u$ 语义分割的结果。

2.2 所属面片分类

输出中的 $m n$ 个通道表示二维像素点 $\boldsymbol u$ 对应的所属面片的分类结果。

2.3 三维点坐标回归

输出中的 $3 m n$ 个通道表示二维像素点 $\boldsymbol u$ 对应的三维坐标点的回归结果。
$\boldsymbol r_{ij}(u)=(\boldsymbol x-\boldsymbol g_{ij})/h_{ij}\tag{2}$
其中， $h_{ij}$ 是对应面片3D BBox的最长边的长度。

2.4 损失函数

$L(\boldsymbol u)=E(\overline a(\boldsymbol u),a(\boldsymbol u))+\sum_{i\in I}\overline a_i(\boldsymbol u)\bigg[ \lambda _1E(\overline b_i(\boldsymbol u),b_i(\boldsymbol u))+\sum_{j\in J}\overline b_{ij}(\boldsymbol u)\lambda _2H(\overline r_{ij}(\boldsymbol u),r_{ij}(\boldsymbol u))\bigg]\tag{3}$
式中， $\overline a(\boldsymbol u)$ 是一个 $m$ 维的one-hot向量， $\overline b_i(\boldsymbol u)$ 是一个 $n$ 的向量，注意，对于对称物体来说，由于一个像素点可能对应三维模型中的多个面片，所以它不是一个one-hot向量，关于此文中有如下描述：
symmetry