CDPN解读

最新推荐文章于 2023-12-24 14:43:51 发布

WangKingJ

最新推荐文章于 2023-12-24 14:43:51 发布

阅读量3.4k

点赞数 3

分类专栏： ML 计算机视觉

本文链接：https://blog.csdn.net/WangKingJ/article/details/103465249

版权

本文介绍了从RGB图像中识别6-DoF的两种方法——间接法和直接法。间接法通过2D-3D对应关系求解旋转量和平移量，而直接法依赖神经网络，适用于快速预测平移量但旋转量精度较低。在训练策略中，采用交替训练以解决旋转量学习难度，并利用动态缩放(Dynamic Zoom In)提高网络性能。测试时，通过检测器和后续网络联合估计物体的旋转和平移信息。

摘要由CSDN通过智能技术生成

关于6-DoF的一些基础的知识点请看上一篇博客。

Related work

从RGB图像中识别6-DoF的方法分为直接法和间接法。

1. 间接法

即不是直接的从RGB图像中恢复出6-DoF的信息，而是现在2维RGB图像和它的3维的模型上建立点到点的对应关系，然后通过数学的方法将旋转量（R）和平移量（T）求解出来。

2. 直接法

即不依赖于物体的三维模型，通过神经网络去进行学习，直接从物体的RGB像素信息中学习三维的旋转量和平移量。能够快速的对物体的6-DoF进行预测，但是对物体的旋转量的估计精度效果不是很好。
原因：旋转量的空间分布是属于一个SO3的空间量，它具有一定的周期性，也就是说对于一个物体，它的旋转的量是0-360°范围内的一个值，并且因为很多的物体存在对称性的问题，所以往往很多物体旋转一定的角度之后，所呈现的画面就是一样的，这就对用神经网络去预测旋转量产生了很大的干扰。

前言

1. 对于旋转量和平移量来说，采用什么样的策略才是最合适的？
旋转量更多的依赖于物体呈现在画面中的外观，而对于平移量来说，更加关注的是物体的中心点相对于拍摄物体的相机的距离（近大远小）。所以说，对于旋转量和平移量采用相同的方式来进行估计不是一个很好的办法。
在相关实验的支撑下，作者选择了用间接法来进行旋转量的估计，用直接法来进行平移量的估计。其实这也是很明显的一种方式，因为直接法估计旋转量会对精度有一定的影响，而间接法估计平移量也会使效率变得相对的低。所以综合考虑基于效率和精度的综合考虑，采用间接法来估计旋转量，直接法来估计平移量应该是一种比较合理的方法，当然，作者通过实验也证明了这一点。

2. 为什么用的是检测的方法，而不是进行实例分割？
实例分割可以将一张图片中的相同的物体抠出来，分割的mask用于pose estimation的话，精度肯定会有所提升，但是因为现在的分割网络的模型都比较大，所以在速度上肯定会比较低，尤其是针对pose estimation的话，因为很多的应用都是实时的，所以对于速度肯定是有一定的要求的。综合考虑实时性，选择了检测的方法。除此之外就是，作者在训练的时候提出的DZI对性能效果的提升十分的显著。在论文中有对这个进行实验的对比。

正文

啰啰嗦嗦了这么多，我估计再啰嗦就要挨打啦，所以下面我们进入正文。

一、训练

1.1. 各个网络的训练

在训练的时候，输入的是整张的图像，然后通过动态缩放（文章的创新点之一：Dynamic Zoom In），其实我认为的就是在ground truth 的bounding box上随机的进行一定的扰动，把扰动后的bounding box扣下来，送到要训练的姿态估计网络中。这个感觉主要是在测试的时候，避免检测到物体的边界框的影响，可能还对解决物体中心点和bounding box中心点的不匹配问题有一定的作用。

在这里插入图片描述
对于旋转量估计的网络，输出是两个，一个是三通道的物体的坐标图，这三个通道分别代表物体的三维模型上的三维点的坐标值，即第一个通道代表的是x，第二个是y，第三个是z；另一个输出是执行度的图，把目标物体从bounding box中抠下来，来找出输入的图像框中的那些像素是对应着物体的像素的。通过物体执行度的图和物体的xyz的三维坐标的图就可以建立物体的像素到物体的三维坐标的对应关系。在训练的时候，提出了一个新的损失函数，
在这里插入图片描述
其中 $n_c=3,M_*^i$