CDPN论文理解

最新推荐文章于 2021-12-24 15:26:48 发布

KirutoCode

最新推荐文章于 2021-12-24 15:26:48 发布

阅读量1.7k

点赞数 4

分类专栏： 6DEoF

本文链接：https://blog.csdn.net/McEason/article/details/104041196

版权

本文介绍CDPN，一种分离旋转R和位移T的6D估计方法，旨在解决纹理缺失和遮挡问题。创新点包括Dynamic Zoom In（DZI）和Scale-invariant Translation Estimation（SITE）。DZI通过调整检测框大小提升鲁棒性，SITE则针对位移估计。文章详细阐述了旋转、平移的处理方法，包括坐标置信度映射和2D-3D对应建立，以及训练和数据准备策略。

摘要由CSDN通过智能技术生成

解决什么问题

一个分离R和T的基于坐标的6D估计方法，能处理纹理缺失和遮挡的问题

本文创新点

提出CDPN 分离R和T的估计
提出Dynamic Zoom In（DZI）让位姿的估计对于检测误差更鲁棒，而且对特定的检测器不敏感

就是说什么样的size都能检测到？
答：不是，是说即使检测效果不是那么好，通过DZI也能得到一个不错的效果
实时，两阶段目标级别的坐标估计
SITE 尺度不变性的位移估计
不需要预训练就能做多种检测

意思是不是就是说和PVNet不一样，不是每个网络只能训练一个物体？
答：不是，还是一种权重对应一种物体，至于这个不需要预训练，不知道神恶魔意思

本文IDEA来源

旋转和平移具有明显不同的性质，并受到不同因素的影响。
例如，图像中物体的大小和位置对旋转的影响很小，但对平移的影响很大。
相反，图像中物体的外观对旋转的影响很大，而对平移的影响很小。

[28] ，证实了直接从图像回归T的效果不错

方法

方法概述

在这里插入图片描述

先用检测器将物体的bbox检测出来，然后做DZI处理，输入到后面的网络中

为什么不用语义分割和实例分割：
语义分割：不方便处理一个图像中的多物体
实例分割：推理很慢，不能满足实时需求

用两阶段的方法来做分割:
用一个检测器将物体检测出来并且裁剪，有了DZI，即使检测有一些误差也没有关系，快就够了，不需要那么精准。
分割直接和坐标回归融合在一块

我这里为什么没有想，他为什么要把分割和坐标回归搞一块，这两个性质之间有什么共同点吗？
做了实验之后，才注意到这一点，什么样的值可以放到一个网络中去预测，这也是一个问题
预测裁剪出来的物体的分割图，预测每个属于该物体的像素在物体坐标系中的3D位置，然后用RANSAC/PnP来得到R

所以，对应关系为什么是这样的，为什么直接从图像估计平移，而不是旋转？或许跟前文提到的对应有关，外观会很大程度影响R，而很少影响T，所以图像就不用来观测R？就只是利用图像的外观位置，而不利用图像的外观?
那既然外观很能反映R，为什么不用图像预测R？
还是说"很大程度影响”和“很大程度反映”是两回事？虽然关联性很大但是不方便利用？
答:利用每个像素预测出来的3D坐标来预测R，就是用的外观。外观不只是颜色，还有“每个部位的位置信息，这也是外观”，所以是利用这个“外观”，不同的部位对应的位置知道了，那么就容易得出R
对于裁剪的图，预测物体中心点和实际中心点的偏移，然后通过SIFT得到T

Dynamic Zoom In

一句话概括

生成很多size的检测框，根据均值和方差选出一个

解决的点

图片中物体的尺寸能随着到摄像机的距离随意改变，这极大的增加了回归出坐标的难度。如果物体很小的话们也很难利用特征

有那种特别小的车，是不是挺适合的？

所以作者根据检测缩放到一个固定的大小

大小都固定了，那坐标必然不是根据这个检测框里的物体决定的吧，应该是和检测的结果相关？
答：缩放后可以再映射回去

既然想检测的很鲁棒，就得考虑检测误差

是不是可以把车之间的不同大小当成一种误差来看？
答：不知道，感觉可以在，无论是error还是scale，本质就是一个数，能起到作用就行了

DZI方案能更好的适应多种检测，而不是每个类单单训练一种检测器

优点

使得带有检测误差的位姿估计模型也能鲁棒
因为训练过程是独立的，所以提高了系统的关于检测的可拓展性
通过更多的训练样本，提高了位姿估计的表现

是因为有很多很多框，所以训练样本更多吗？
训练是独立的，就是说检测和后面的处理并没有什么联系，所以只要检测器做的好就ok？
答：训练样本，看代码没多啥，或许是因为将很多预测出来的框合成一个，所以说训练样本更多吧；
应该不是检测器的问题，DZI就是为了解决检测器效果不是特别好的问题

细节

给定包含目标对象的图片，还有位置 $C_{x,y}$ 和尺寸 $S = m a x (h, w)$ ，然后从公式1定义的被截断的正态分布里采样位置 $\tilde{C}_{x,y}$ 和 $\tilde S$ 。
采样的范围依赖于物体的高 $h$ ，宽 $w$ ，还有参数 $\alpha,\beta,\gamma,\rho$ 。
然后用 $\tilde{C}_{x,y}$ 和 $\tilde S$ 来提取目标，并且resize到一个固定的大小，resize的时候要保持长宽比不变，有必要的话就pad

这个 $C_{x,y}$ 和尺寸 $S = m a x (h, w)$ 是什么呢，原始的图片会有这个？看样子是采集了很多很多的框，然后去一个均值之类的东西？就像下图？
答： $C_{x,y}$ 和尺寸 $S = m a x (h, w)$ 都是根据预测出来的框得出的，应该是接在DZI之后的操作。

</