[论文阅读] Center-based 3D Object Detection andTracking-CenterPoint

paper 原论文的链接
code: 源代码链接
readpaper-含笔记: readpaper.com上的论文阅读及笔记

1. 主要思想

通过什么方式,解决了什么问题

本文主要是两阶段的网络,首先在voxelNet或者Pointpillar通过CenterNet的思想,利用keypoint的方式,学习objects的中心点,并且初步回归其他预测属性(l,w,h,heading),然后第二阶段进一步refine这些属性。
第二阶段的具体做法是,根据第一阶段的box,分别聚合box四个面的中心点的特征,然后再预测最终的目标;

  • tracking部分先不考虑

2. 具体方法

说明怎么解决的,具体设计是什么, 有什么启发性思考(作者的创新点)

背景: 描述一些3d od的挑战

  • 点云是稀疏的
  • 预测的3d box不能与全局坐标系对齐
  • 预测的物体尺寸方差大,(形状,纵横比等方面)

1. 网络结构
centerPoint NetWork2. 一些细节

  • center-based的方法有一些优势:1)中心点的预测好处是点不需要方向信息,减小预测的搜索空间,对于物体的旋转不变性和等价旋转有一定的好处。(比如对于旋转180度或者左右对称旋转的对象,预测中心点可能更容易泛化这种差异性); 2)对于预测更加友好,可以直接将中心点串起来就是轨迹;3)这种基于中心点的预测方式,使得第二阶段设计预测模块更加方便。
  • 一般常识性技巧是,由于backbone有stride操作,导致一些cell与真实中心位置存在offset,所以需要回归一个offset
  • 分析了anchor-based的一般性问题,就是通过anchor与gt之间的阈值,来界定positive和negative的比例,这个不同类型设置的阈值不好选择。
  • 计算heatmap的时候,通过放大高斯峰范围来增加正例的监督
  • 在学习物体shape的时候,我们需要学习log(shape),这样能有利于回归(我理解的是,log后的尺寸值域缩小,减小不同大小物体之间的差异,有利于回归-起到类似归一化的效果)

  • 第二阶段特征提取: 提取第一个阶段预测的box的前后左右面的中心点特征(不考虑上下面);具体怎么构建特征的, 通过bilinear方式读取每个面的中心点在俯视图上的附近像素特征,然后cat后 在MLP聚合特征,用于预测refine结果
  • 类别置信度预测:类别的目标执行度不都是1, 是根据proposal的box与gt的IOU进行设置的,记作 I t I_t It,这样通过maxPooling就可以起到NMS的作用
    I = m i n ( 1 , m a x ( 0 , 2 × I o U t − 0.5 ) ) I = min(1, max(0, 2\times IoU_t - 0.5)) I=min(1,max(0,2×IoUt0.5))
    L s c o r e = − I t l o g ( I ^ t ) − ( 1 − I t ) l o g ( 1 − I ^ t ) L_{score} = -I_t log(\hat{I}_t) - (1 - I_t)log(1 - \hat{I}_t) Lscore=Itlog(I^t)(1It)log(1I^t)
  • 预测时候的置信度计算: inference 阶段,两个阶段的置信度几何均值进行综合; Q ^ t \hat{Q}_t Q^t 最后预测的置信度, I ^ t \hat{I}_t I^t是上面的描述的意思, Y ^ t \hat{Y}_t Y^t m a x 0 < = k < = K Y ^ p , k max_{0<=k<=K}\hat{Y}_{p,k} max0<=k<=KY^p,k第一阶段预测的置信度。
    Q ^ t = Y ^ t ∗ I ^ t \hat{Q}_t = \sqrt{\hat{Y}_t * \hat{I}_t} Q^t=Y^tI^t

3. 实验支撑

记录一些关键实验的结论分析,具有启发性的实验和结论

  • 使用nuScenes数据集,有一个新的评测NDS:is a weighted average of mAP and others attributes metrics, including translation, scale, orientation, velocity, and other box attributes.

  • PKL评价指标: The PKL metric measures the influence of 3D object detection for down-streamed autonomous driving tasks based on the KL divergence of a planner’s route (using 3D detection) and the ground truth trajectory.

  • waymo 数据集评测:
    在这里插入图片描述

  • anchor-based and anchor-free对比
    在这里插入图片描述

4. 总结启示

针对中心思想和实验结论的总结和扩展思考
扩展思考 : 也就是用自己已有的知识或者自己的“土话”,重新理解paper(费曼学习法的精髓-便于记忆和举一反三的应用)

  • 首先第二阶段通过聚合每个面的中心点特征的方式聚合特征,进行学习,这个从启发性角度,是比较符合实际的;因为激光扫描车身时,有些面扫的全,有些面扫的不全,而扫的全的面更有利于预测车box,此外,将box的预测分散到每个面的预测上去,更能增加鲁棒性; (也就是这个车你看到车侧身,另一个车你看到后端,那么其他一个车,不管车侧身还是车后端,你可能都能预测,因为这两个情况已经在不同的objects上都学过了),(类似bagging策略

5. 相关文献

主要的比较贴近的文献,关键性文献

TODO List

  • tracking部分补充
  • NDS和PKL知识细节补充和应用思考
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值