[论文阅读] RGB and LiDAR fusion based 3D Semantic Segmentation for Autonomous Driving

最新推荐文章于 2024-09-28 17:29:44 发布

mingshili

最新推荐文章于 2024-09-28 17:29:44 发布

阅读量173

点赞数 1

分类专栏： 3D 激光点云语义分割论文阅读文章标签：论文阅读人工智能点云分割

本文链接：https://blog.csdn.net/mingshili/article/details/128401894

版权

论文阅读同时被 3 个专栏收录

11 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

激光点云语义分割

10 篇文章 2 订阅

订阅专栏

该论文提出了一种新的方法，通过将图像与雷达数据融合，利用SqueezeSeg为基础的模型结构进行改进。在数据投射中，将图像大小调整以匹配雷达的分辨率。模型采用了早期融合和中期融合两种策略，其中中期融合表现出更好的性能。实验表明，卷积操作可能导致小目标预测的边界模糊。此外，对模型预测的错误分析揭示了卷积平滑效应的影响。该研究为多传感器融合在自动驾驶领域的应用提供了有价值的见解。

摘要由CSDN通过智能技术生成

paper 原论文的链接

1. 主要思想

通过什么方式，解决了什么问题

就是将图像与雷达融合，然后在SqueezeSeg的基础上在数据通道上添加三个颜色通道，并且结构上采用分离特征融合的方式(【XYZDI】+ [DIRGB]).
注意是将图像的大小向lidar投影后的(64,512,5)大小上看齐；因为如果要lidar向图像看齐，雷达点太过稀疏（[13]论文采用这种方式）

2. 具体方法

说明怎么解决的，具体设计是什么, 有什么启发性思考（作者的创新点）

2.1 数据投射方式：

激光水平投射：
在这里插入图片描述

投射后，RGB和原来的5个通道组成8通道，他们分别为如下所示：
在这里插入图片描述

2.2 模型结构

如下图所示：

在这里插入图片描述需要注意模型结构在融合方面有个创新

early-fusion: 就是只用上图中b中的上面的网络分支，而且输入是XYZDIRGB通道；
mid-fusion: 是two-branch方式中，在上面模型输入[XYZDI], 在下面模型输入是[DIRGB]; 这样参数多了一倍，但是作者分析到： the separate encoders can be leveraged for other tasks in the respective modalities. This model typically provides better performance compared to early fusion [17] [16]. 这个思想可以学一下，鸟瞰图自己编的特征是否要分离学习

3. 实验支撑

记录一些关键实验的结论分析，具有启发性的实验和结论

对比：
在这里插入图片描述分析了为什么一些小目标效果差的固有原因：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EFRGfLXG-1643718959198)(./figs/RGB_lidar_analysis.png)] 可视化效果分析，如下图：
> however we notice some false positives at the edges of the cyclist, which we believe to be due to the effect of smoothing effect of convolutional filters. 作者分析了自己预测会有一些边界预测多余，可能是卷积具有平滑特性的原因。