CDPN论文理解

本文介绍CDPN,一种分离旋转R和位移T的6D估计方法,旨在解决纹理缺失和遮挡问题。创新点包括Dynamic Zoom In(DZI)和Scale-invariant Translation Estimation(SITE)。DZI通过调整检测框大小提升鲁棒性,SITE则针对位移估计。文章详细阐述了旋转、平移的处理方法,包括坐标置信度映射和2D-3D对应建立,以及训练和数据准备策略。
摘要由CSDN通过智能技术生成

解决什么问题

一个分离R和T的基于坐标的6D估计方法,能处理纹理缺失和遮挡的问题

本文创新点

  1. 提出CDPN 分离R和T的估计
  2. 提出Dynamic Zoom In(DZI)让位姿的估计对于检测误差更鲁棒,而且对特定的检测器不敏感

    就是说什么样的size都能检测到?
    答:不是,是说即使检测效果不是那么好,通过DZI也能得到一个不错的效果

  3. 实时,两阶段目标级别的坐标估计
  4. SITE 尺度不变性的位移估计
  5. 不需要预训练就能做多种检测

    意思是不是就是说和PVNet不一样,不是每个网络只能训练一个物体?
    答:不是,还是一种权重对应一种物体,至于这个不需要预训练,不知道神恶魔意思

本文IDEA来源

旋转和平移具有明显不同的性质,并受到不同因素的影响。
例如,图像中物体的大小和位置对旋转的影响很小,但对平移的影响很大。
相反,图像中物体的外观对旋转的影响很大,而对平移的影响很小。

[28] ,证实了直接从图像回归T的效果不错

方法

方法概述

在这里插入图片描述

  1. 先用检测器将物体的bbox检测出来,然后做DZI处理,输入到后面的网络中

    为什么不用语义分割和实例分割:
    语义分割:不方便处理一个图像中的多物体
    实例分割:推理很慢,不能满足实时需求

    用两阶段的方法来做分割:
    用一个检测器将物体检测出来并且裁剪,有了DZI,即使检测有一些误差也没有关系,快就够了,不需要那么精准。
    分割直接和坐标回归融合在一块

    我这里为什么没有想,他为什么要把分割和坐标回归搞一块,这两个性质之间有什么共同点吗?
    做了实验之后,才注意到这一点,什么样的值可以放到一个网络中去预测,这也是一个问题

  2. 预测裁剪出来的物体的分割图,预测每个属于该物体的像素在物体坐标系中的3D位置,然后用RANSAC/PnP来得到R

    所以,对应关系为什么是这样的,为什么直接从图像估计平移,而不是旋转?或许跟前文提到的对应有关,外观会很大程度影响R,而很少影响T,所以图像就不用来观测R?就只是利用图像的外观位置,而不利用图像的外观?
    那既然外观很能反映R,为什么不用图像预测R?
    还是说"很大程度影响”和“很大程度反映”是两回事?虽然关联性很大但是不方便利用?
    答:利用每个像素预测出来的3D坐标来预测R,就是用的外观。外观不只是颜色,还有“每个部位的位置信息,这也是外观”,所以是利用这个“外观”,不同的部位对应的位置知道了,那么就容易得出R

  3. 对于裁剪的图,预测物体中心点和实际中心点的偏移,然后通过SIFT得到T

Dynamic Zoom In

一句话概括

生成很多size的检测框,根据均值和方差选出一个

解决的点

图片中物体的尺寸能随着到摄像机的距离随意改变,这极大的增加了回归出坐标的难度。如果物体很小的话们也很难利用特征

有那种特别小的车,是不是挺适合的?

所以作者根据检测缩放到一个固定的大小

大小都固定了,那坐标必然不是根据这个检测框里的物体决定的吧,应该是和检测的结果相关?
答:缩放后可以再映射回去

既然想检测的很鲁棒,就得考虑检测误差

是不是可以把车之间的不同大小当成一种误差来看?
答:不知道,感觉可以在,无论是error还是scale,本质就是一个数,能起到作用就行了

DZI方案能更好的适应多种检测,而不是每个类单单训练一种检测器

优点

  1. 使得带有检测误差的位姿估计模型也能鲁棒
  2. 因为训练过程是独立的,所以提高了系统的关于检测的可拓展性
  3. 通过更多的训练样本,提高了位姿估计的表现

    是因为有很多很多框,所以训练样本更多吗?
    训练是独立的,就是说检测和后面的处理并没有什么联系,所以只要检测器做的好就ok?
    答:训练样本,看代码没多啥,或许是因为将很多预测出来的框合成一个,所以说训练样本更多吧;
    应该不是检测器的问题,DZI就是为了解决检测器效果不是特别好的问题

细节

  1. 给定包含目标对象的图片,还有位置 C x , y C_{x,y} Cx,y和尺寸 S = m a x ( h , w ) S=max(h,w) S=max(h,w),然后从公式1定义的被截断的正态分布里采样位置 C ~ x , y \tilde{C}_{x,y} C~x,y S ~ \tilde S S~
  2. 采样的范围依赖于物体的高 h h h,宽 w w w,还有参数 α , β , γ , ρ \alpha,\beta,\gamma,\rho α,β,γ,ρ
  3. 然后用 C ~ x , y \tilde{C}_{x,y} C~x,y S ~ \tilde S S~来提取目标,并且resize到一个固定的大小,resize的时候要保持长宽比不变,有必要的话就pad

    这个 C x , y C_{x,y} Cx,y和尺寸 S = m a x ( h , w ) S=max(h,w) S=max(h,w)是什么呢,原始的图片会有这个?看样子是采集了很多很多的框,然后去一个均值之类的东西?就像下图?
    答: C x , y C_{x,y} Cx,y和尺寸 S = m a x ( h , w ) S=max(h,w) S=max(h,w)都是根据预测出来的框得出的,应该是接在DZI之后的操作。
    在这里插入图片描述

    </
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值