论文解读《Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation》

最新推荐文章于 2024-07-25 18:39:37 发布

ZYLer_

最新推荐文章于 2024-07-25 18:39:37 发布

阅读量936

点赞数 19

分类专栏： 6D位姿估计文章标签：人工智能计算机视觉

本文链接：https://blog.csdn.net/ZYLer_/article/details/135181790

版权

6D位姿估计专栏收录该内容

11 篇文章 7 订阅

订阅专栏

论文：《Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation》

Code：https://github.com/kirumang/Pix2Pose（176 star）

摘要：

解决问题：对于诸如遮挡和对称性之类的问题，仅使用RGB图像来估计物体的6D姿态非常具有挑战性；而且在没有专业知识或专业扫描设备的情况下，也很难构建具有精确纹理的3D模型，在一些工业中，也会使用无纹理的CAD模型。
提出了一种新的6D姿态估计框架Pix2Pose，它在训练过程中使用没有纹理的3D模型从RGB图像中稳健地回归对象的逐像素3D坐标和预期误差，然后，在多个阶段中使用这些逐像素预测来形成2D-3D对应，以使用具有RANSAC迭代的PnP算法直接计算姿势。

利用生成对抗性GAN的最新成果来精确恢复被遮挡的部分，从而对遮挡具有鲁棒性。

提出了一种新的损失函数transformer loss，引导预测位姿到最接近的对称位姿来处理对称物体。

网络架构：

裁剪后的图像补丁大小调整为128×128px，具有三个RGB值通道。前四个卷积层（编码器）中的滤波器和信道的大小与[28]中的相同。为了保持低级别特征图的细节，通过将前三层的输出的半通道复制到解码器中相应的对称层来添加Skip connections[27]，这导致对几何边界周围的像素进行更精确的估计。两个完全连接的层用于瓶颈，编码器和解码器之间有256个维度。BN[12]和LeakyReLU激活应用于除最后一层之外的中间层的每个输出。在最后一层中，具有三个通道和正弦激活的输出产生3D坐标图像I_3D，而具有一个通道和S形激活的另一个输出估计预期误差I_e。

输入：检测到的对象类的边界框的裁剪图像I_s；（128×128×3）
输出：物体坐标系下每个像素点I_3D的归一化3D坐标（包括被遮挡部分）（128×128×3）、每个预测的误差估计I_e（可视为置信度得分）（128×128×1）；（三维坐标对应的标签在给定真实位姿数据下通过相机模型逆运算得到，之后再对得到的三维坐标值进行归一化处理）
流程：
- 给定一张输入图像，首先通过2D目标检测网络crop出保持长宽比的图像块，并将其resize成128 × 128大小，然后将其输入到训练好的网络中，将得到的三维坐标图像(也即I_3D)中的非零值标记出来，再将误差预测值小于异常阈值θ对应的像素标记出来，去上述两部分标记的并集制作mask，再以该mask重新从原图像crop128 × 128的图像块，注意重新得到的图像块的未标记部分用[0, 0, 0]填充，也即黑色。
- 将第一阶段得到的图像块再次输入到网络中，将输出中误差值大于θ的像素剔除到，则可以用剩余的像素集合通过RANSAC-based PnP求解位姿。
损失函数：

对于非对称物体，三维坐标回归部分的损失函数如下计算：

式中，n 是像素个数，M 表示图像中物体对应的Mask，注意，这里的mask包含了物体被遮挡部分，这样就使得训练出来的网络对遮挡有一定的鲁棒性；对于属于物体的像素，损失项前面乘以一个大于1的β，这是因为物体像素对于训练更重要。

对于对称物体，三维坐标回归部分的损失函数如下计算：

式中，R_p是一个3 × 3 的旋转向量，它取自于集合sym中，该集合包含了若干个旋转向量，每一个旋转向量的旋转轴为物体对称轴、旋转角度为物体对称角度或其整数倍，当然该集合中还包括了单位向量，表示物体不旋转。

误差项的损失函数如下计算：

创新点：使用GAN网络处理遮挡问题！

使用自动编码器的生成模型已被用于去噪[31]或恢复图像的缺失部分[33]。最近，使用生成对抗性网络（GAN）[5]提高了生成的图像的质量，这些图像不那么模糊，更逼真，用于图像到图像的翻译[13]、画中画和去噪[11，23]任务。Zakharov等人[34]提出了一种基于GAN的框架，将真实深度图像转换为没有噪声和背景的合成深度图像，用于分类和姿态估计。

受先前工作的启发，我们使用GAN训练了一种自动编码器架构，以将彩色图像准确地转换为坐标值，就像在图像到图像的翻译任务中一样，同时恢复绘画任务中图像中被遮挡部分的值。

ZYLer_

关注

19
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
论文解读《Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation》

最近，使用生成对抗性网络（GAN）[5]提高了生成的图像的质量，这些图像不那么模糊，更逼真，用于图像到图像的翻译[13]、画中画和去噪[11，23]任务。式中，n 是像素个数，M 表示图像中物体对应的Mask，注意，这里的mask包含了物体被遮挡部分，这样就使得训练出来的网络对遮挡有一定的鲁棒性；式中，R_p是一个3 × 3 的旋转向量，它取自于集合sym中，该集合包含了若干个旋转向量，每一个旋转向量的旋转轴为物体对称轴、旋转角度为物体对称角度或其整数倍，当然该集合中还包括了单位向量，表示物体不旋转。
复制链接

扫一扫

专栏目录