[论文阅读] RGB and LiDAR fusion based 3D Semantic Segmentation for Autonomous Driving

该论文提出了一种新的方法,通过将图像与雷达数据融合,利用SqueezeSeg为基础的模型结构进行改进。在数据投射中,将图像大小调整以匹配雷达的分辨率。模型采用了早期融合和中期融合两种策略,其中中期融合表现出更好的性能。实验表明,卷积操作可能导致小目标预测的边界模糊。此外,对模型预测的错误分析揭示了卷积平滑效应的影响。该研究为多传感器融合在自动驾驶领域的应用提供了有价值的见解。
摘要由CSDN通过智能技术生成

paper 原论文的链接

1. 主要思想

通过什么方式,解决了什么问题

就是将图像与雷达融合,然后在SqueezeSeg的基础上在数据通道上添加三个颜色通道,并且结构上采用分离特征融合的方式(【XYZDI】+ [DIRGB]).
注意是将图像的大小向lidar投影后的(64,512,5)大小上看齐; 因为如果要lidar向图像看齐,雷达点太过稀疏([13]论文采用这种方式)

2. 具体方法

说明怎么解决的,具体设计是什么, 有什么启发性思考(作者的创新点)

2.1 数据投射方式:

激光水平投射:
在这里插入图片描述

投射后,RGB和原来的5个通道组成8通道,他们分别为如下所示:
在这里插入图片描述

2.2 模型结构

如下图所示:

在这里插入图片描述需要注意模型结构在融合方面有个创新

  • early-fusion: 就是只用上图中b中的上面的网络分支,而且输入是XYZDIRGB通道;
  • mid-fusion: 是two-branch方式中,在上面模型输入[XYZDI], 在下面模型输入是[DIRGB]; 这样参数多了一倍,但是作者分析到: the separate encoders can be leveraged for other tasks in the respective modalities. This model typically provides better performance compared to early fusion [17] [16]. 这个思想可以学一下, 鸟瞰图自己编的特征是否要分离学习

3. 实验支撑

记录一些关键实验的结论分析,具有启发性的实验和结论

对比:
在这里插入图片描述分析了为什么一些小目标效果差的固有原因
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EFRGfLXG-1643718959198)(./figs/RGB_lidar_analysis.png)]可视化效果分析, 如下图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Mb75gawI-1643718959199)(./figs/RGB_lidar_show.png)]> however we notice some false positives at the edges of the cyclist, which we believe to be due to the effect of smoothing effect of convolutional filters. 作者分析了自己预测会有一些边界预测多余,可能是卷积具有平滑特性的原因。

4. 总结启示

针对中心思想和实验结论的总结和扩展思考
扩展思考 : 也就是用自己已有的知识或者自己的“土话”,重新理解paper(费曼学习法的精髓-便于记忆和举一反三的应用)

  • 作者分析了自己预测会有一些边界预测多余,可能是卷积具有平滑特性的原因, 这个我们在训练数据的时候,可以注意卷积的这个特性。
  • mid-fusion结构值得学习
  • 对小目标效果差的分析也值得学习, 4.小节中有说。

5. 相关文献

主要的比较贴近的文献,关键性文献

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值