paper 原论文的链接
1. 主要思想
通过什么方式,解决了什么问题
就是将图像与雷达融合,然后在SqueezeSeg的基础上在数据通道上添加三个颜色通道,并且结构上采用分离特征融合的方式(【XYZDI】+ [DIRGB]).
注意是将图像的大小向lidar投影后的(64,512,5)大小上看齐; 因为如果要lidar向图像看齐,雷达点太过稀疏([13]论文采用这种方式)
2. 具体方法
说明怎么解决的,具体设计是什么, 有什么启发性思考(作者的创新点)
2.1 数据投射方式:
激光水平投射:
投射后,RGB和原来的5个通道组成8通道,他们分别为如下所示:
2.2 模型结构
如下图所示:
需要注意模型结构在融合方面有个创新
- early-fusion: 就是只用上图中b中的上面的网络分支,而且输入是XYZDIRGB通道;
- mid-fusion: 是two-branch方式中,在上面模型输入[XYZDI], 在下面模型输入是[DIRGB]; 这样参数多了一倍,但是作者分析到: the separate encoders can be leveraged for other tasks in the respective modalities. This model typically provides better performance compared to early fusion [17] [16]. 这个思想可以学一下, 鸟瞰图自己编的特征是否要分离学习
3. 实验支撑
记录一些关键实验的结论分析,具有启发性的实验和结论
对比:
分析了为什么一些小目标效果差的固有原因:
可视化效果分析, 如下图:
> however we notice some false positives at the edges of the cyclist, which we believe to be due to the effect of smoothing effect of convolutional filters. 作者分析了自己预测会有一些边界预测多余,可能是卷积具有平滑特性的原因。
4. 总结启示
针对中心思想和实验结论的总结和扩展思考
扩展思考 : 也就是用自己已有的知识或者自己的“土话”,重新理解paper(费曼学习法的精髓-便于记忆和举一反三的应用)
- 作者分析了自己预测会有一些边界预测多余,可能是卷积具有平滑特性的原因, 这个我们在训练数据的时候,可以注意卷积的这个特性。
- mid-fusion结构值得学习
- 对小目标效果差的分析也值得学习, 4.小节中有说。
5. 相关文献
主要的比较贴近的文献,关键性文献