paper 原论文的链接
code: 源代码链接
readpaper-含笔记: readpaper.com上的论文阅读及笔记
1. 主要思想
通过什么方式,解决了什么问题
本文主要是两阶段的网络,首先在voxelNet或者Pointpillar通过CenterNet的思想,利用keypoint的方式,学习objects的中心点,并且初步回归其他预测属性(l,w,h,heading),然后第二阶段进一步refine这些属性。
第二阶段的具体做法是,根据第一阶段的box,分别聚合box四个面的中心点的特征,然后再预测最终的目标;
- tracking部分先不考虑
2. 具体方法
说明怎么解决的,具体设计是什么, 有什么启发性思考(作者的创新点)
背景: 描述一些3d od的挑战
- 点云是稀疏的
- 预测的3d box不能与全局坐标系对齐
- 预测的物体尺寸方差大,(形状,纵横比等方面)
1. 网络结构
2. 一些细节
- center-based的方法有一些优势:1)中心点的预测好处是点不需要方向信息,减小预测的搜索空间,对于物体的旋转不变性和等价旋转有一定的好处。(比如对于旋转180度或者左右对称旋转的对象,预测中心点可能更容易泛化这种差异性); 2)对于预测更加友好,可以直接将中心点串起来就是轨迹;3)这种基于中心点的预测方式,使得第二阶段设计预测模块更加方便。
- 一般常识性技巧是,由于backbone有stride操作,导致一些cell与真实中心位置存在offset,所以需要回归一个offset
- 分析了anchor-based的一般性问题,就是通过anchor与gt之间的阈值,来界定positive和negative的比例,这个不同类型设置的阈值不好选择。
- 计算heatmap的时候,通过放大高斯峰范围来增加正例的监督
- 在学习物体shape的时候,我们需要学习log(shape),这样能有利于回归(我理解的是,log后的尺寸值域缩小,减小不同大小物体之间的差异,有利于回归-起到类似归一化的效果)
- 第二阶段特征提取: 提取第一个阶段预测的box的前后左右面的中心点特征(不考虑上下面);具体怎么构建特征的, 通过bilinear方式读取每个面的中心点在俯视图上的附近像素特征,然后cat后 在MLP聚合特征,用于预测refine结果
- 类别置信度预测:类别的目标执行度不都是1, 是根据proposal的box与gt的IOU进行设置的,记作
I
t
I_t
It,这样通过maxPooling就可以起到NMS的作用
I = m i n ( 1 , m a x ( 0 , 2 × I o U t − 0.5 ) ) I = min(1, max(0, 2\times IoU_t - 0.5)) I=min(1,max(0,2×IoUt−0.5))
L s c o r e = − I t l o g ( I ^ t ) − ( 1 − I t ) l o g ( 1 − I ^ t ) L_{score} = -I_t log(\hat{I}_t) - (1 - I_t)log(1 - \hat{I}_t) Lscore=−Itlog(I^t)−(1−It)log(1−I^t) - 预测时候的置信度计算: inference 阶段,两个阶段的置信度几何均值进行综合;
Q
^
t
\hat{Q}_t
Q^t 最后预测的置信度,
I
^
t
\hat{I}_t
I^t是上面的描述的意思,
Y
^
t
\hat{Y}_t
Y^t是
m
a
x
0
<
=
k
<
=
K
Y
^
p
,
k
max_{0<=k<=K}\hat{Y}_{p,k}
max0<=k<=KY^p,k第一阶段预测的置信度。
Q ^ t = Y ^ t ∗ I ^ t \hat{Q}_t = \sqrt{\hat{Y}_t * \hat{I}_t} Q^t=Y^t∗I^t
3. 实验支撑
记录一些关键实验的结论分析,具有启发性的实验和结论
-
使用nuScenes数据集,有一个新的评测NDS:is a weighted average of mAP and others attributes metrics, including translation, scale, orientation, velocity, and other box attributes.
-
PKL评价指标: The PKL metric measures the influence of 3D object detection for down-streamed autonomous driving tasks based on the KL divergence of a planner’s route (using 3D detection) and the ground truth trajectory.
-
waymo 数据集评测:
-
anchor-based and anchor-free对比
4. 总结启示
针对中心思想和实验结论的总结和扩展思考
扩展思考 : 也就是用自己已有的知识或者自己的“土话”,重新理解paper(费曼学习法的精髓-便于记忆和举一反三的应用)
- 首先第二阶段通过聚合每个面的中心点特征的方式聚合特征,进行学习,这个从启发性角度,是比较符合实际的;因为激光扫描车身时,有些面扫的全,有些面扫的不全,而扫的全的面更有利于预测车box,此外,将box的预测分散到每个面的预测上去,更能增加鲁棒性; (也就是这个车你看到车侧身,另一个车你看到后端,那么其他一个车,不管车侧身还是车后端,你可能都能预测,因为这两个情况已经在不同的objects上都学过了),(类似bagging策略)
5. 相关文献
主要的比较贴近的文献,关键性文献
TODO List
- tracking部分补充
- NDS和PKL知识细节补充和应用思考