CLFT：用于自动驾驶语义分割的相机-激光雷达融合Transformer架构

最新推荐文章于 2025-05-08 11:46:41 发布

自动驾驶之心

最新推荐文章于 2025-05-08 11:46:41 发布

阅读量690

点赞数

文章标签：自动驾驶数码相机 transformer 人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247606807&idx=4&sn=cbe9ee48523208dd6cbe09c258090e86&chksm=cf2b2ec2c402fb448032baa043dd8e4c5f113a46ce6fe226ddfa0f4898fe4a37083fc5d129dd&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『多传感器融合』技术交流群

编辑 | 自动驾驶之心

论文思路

文章提出了一种用于自动驾驶语义分割的方案，它基于Vision Transformer（ViT）网络，融合相机和激光雷达的信息。主要是在相机和激光雷达分别使用新颖的ViT网络渐进式编码模块，然后将结果集成到transformer解码器层的交叉融合模块中。实验旨在从多模态传感器融合和backbone网络两个角度评估CLFT的性能，并且在雨天和低光照条件下进行评估，展现了不错的语义分割效果。

主要贡献

介绍了一种新的网络架构CLFT，在双向网络中使用基于ViT的渐进编码模块；
直接使用相机和激光雷达输入来完成物体语义分割任务；
根据光照和天气条件划分数据集，增强了模型在现实世界的鲁棒性；
通过实验证明该模型的关键是transformer和多传感器融合的结合，且在所有场景下都具有优势。

论文方法

CLFT模型的侧重点在于：a）超越现有的基于transformer的单模态模型；b）通过融合相机和激光雷达的数据，在交通目标语义分割领域能与基于CNN的方法进行竞争。CLFT沿用了密集预测（DPT）中transformer的整体结构，但是在其卷积解码器中调用了一种后期融合策略，该策略先是并行输入相机和激光雷达数据，然后融合它们的特征图表示。

图1 CLFT整体框架

如图1所示的整体框架，这是一个双向网络，相机以RGB通道为输入，从网络的左侧输入；而激光雷达的输入则是XY、YZ、XZ投影平面，从网络的右侧输入。中间虚线框出来的部分则是交叉融合策略。利用激光雷达的优势，探讨了基于transformer的网络在语义分割方面的潜力，证明了transformer网络与CNN网络相比，具有对小样本分类的能力。下面从编码器和解码器两部分简要说明CLFT的相关配置。

编码器

Vision Transformer 创新地提出了一种编码器，可以将图像转换成多个token，这些token可以像句子的单词一样被处理。为了将标准的transformer迁移到计算机视觉领域中，ViT编码器提出了两个方法将图像转换为tokens。第一种方法是将图像划分为固定大小的不重叠的小块，然后对它们的平面向量表示进行线性投影。第二种方法是从CNN特征图中提取特征补丁，然后将它们作为tokens馈送到transformer中。论文中保留了ViT定义编码器的变体的形式，即“CLFT-base”、“CLFT-large”、“CLFT-huge”和“CLFT-hybrid”。“CLFT-base”、“CLFT-large”和“CLFT-huge”架构使用基于补丁的嵌入方法，具有12、24和32个transformer层，每个token的特征维D分别为768、1024和1280；“CLFT-hybrid”编码器采用ResNet50网络提取像素特征作为图像嵌入，具有24个transformer层。实验中所有的patch大小为，输入的图像和LiDAR图像的分辨率统一设置为(384×384).所以对于“CLFT-hybrid”编码器，它从384÷16 = 24分辨率的输入patch中提取特征。使用ImageNet对所有编码器进行预训练，然后将位置嵌入与图像嵌入连接起来以保留位置信息。此外，有一个单独的可学习的token序列用于分类，该分类token类似于BERT的“class”token，独立于所有图像补丁并进行位置嵌入。

解码器

构建了一个解码器来并行处理LiDAR和相机的token。如图1所示，选择4个transformer编码器层，表示为，然后将每一层的token组合为特征映射的类似图像的表示。将初始层的特征映射上采样到高分辨率，而深层的特征表示下采样到低分辨率。分辨率固定为输入图像的大小(h,w)，编码器层对应的采样系数为。具体来说，解码器层的特征处理分成两步。第一步将与补丁无关的“分类token”与所有其他tokens单独复制和连接，然后将连接的特征表示发送给具有GELU非线性激活的MLP进程。第二步则如公式1所示，它首先根据初始位置顺序将第一步中的token连接起来，以产生类似图像的表示，然后将此表示传递给两个卷积操作。第一个卷积将表示从D维投影到维(在实验中是768到256)。第二次卷积对transformer编码器不同层的表示应用上采样或下采样。这两个步骤的通用工作流如图2所示。

图2 每个transformer解码器块特征处理体系结构，将每一层的token编码成类似图像的特征映射表示

解码器的最后一个步骤是相机和LiDAR特征图的交叉融合。如图3所示，该模块使用两个残差卷积单元（RCU）依次发送相机和LiDAR的特征表示，然后将其与上一层融合的结果进行加和，加和后的结果再送入残差卷积单元。将最后一个融合层的输出送入反卷积和上采样模块来计算最终的预测分割。网络通过误差反向传播自动学习链接权重，所以激光雷达和相机的数据可以在任何融合块中进行融合。

图3 渐进式编码

数据集配置

该论文的主要目的是比较ViT和CNN的骨干网络在语义分割方面的性能。采用的Waymo数据集有多个高质量相机和激光雷达传感器，涵盖了各种照明水平、天气条件和交通场景。为了测试模型的鲁棒性，将数据序列划分为四个子集：light-dry、light-wet,、dark-dry、dark-wet。“亮”和“暗”表示相对照明条件。“干”和“湿”代表降水的天气差异。表1显示了数据集子集的详细信息。主要评估指标是IoU，精度和召回率作为补充信息。IoU主要用于目标检测，其输出的是目标的边界框，论文中对IoU算法做了一定的改进。有一些不明确的像素点，比如会有一些不在分类目标的像素点，实验中将这些像素赋值为空且不参与到评估中。

表1 四个子集中的帧数

激光雷达数据操作

在相机和激光雷达的融合工作中，通常对图像的纹理信息和点云的位置信息进行特征提取和融合，所以在论文中将3D LiDAR点云投影到相机平面上，在XY、Y Z和XZ平面上创建2D占用网格，LiDAR点云分别按照公式2和公式3进行变换和投影。

公式2中，、、为变换后相机坐标系下的三维点坐标；表示到相机坐标系的欧拉旋转矩阵，表示相应的欧拉角。、、为变换前激光雷达坐标系下的三维点坐标；、、表示相机坐标系的位置。

公式3中，、分别为该点在二维图像平面上的列、行位置信息；和表示相机的水平和垂直焦距；和表示图像分辨率；为变换后的三维点坐标(与公式2中的、、相同)。

将三维点云变换投影到二维图像后的操作是滤波，目的是丢弃掉所有落在相机视图之外的点。Waymo数据集使用五个激光雷达和五个相机传感器收集数据，覆盖所有车辆方向。在这一步工作中，使用了顶部激光雷达的点云和前置相机的图像数据，激光雷达点云信息会生成三个投影图像，分别表示XY、YZ和ZX，与3D点云对应的像素被分配为x，y，z坐标，其他像素则被赋值为0。最后在LiDAR图像输入之前对其进行上采样。图4中(c)-(g)是这一部分的可视化结果。(c) (e) (g)分别为X、Y、Z通道的LiDAR投影图像，(d) (f) (h)为其对应的上采样图像。

图4 相机图像的例子、语义标注掩码、预处理激光雷达数据

对象语义掩码

Waymo数据集中的地面真值标注信息由2D和3D边界框表示，分别对应于相机和LiDAR数据。图像注释有三类：车辆、行人和骑自行车的人。点云注释则有一个额外的类：交通标志。在实验中使用Waymo的地面真值标注信息会面临两个问题：

a) 骑车者和交通标志在Waymo数据集中样本数相对较少，因而CLFT模型很难在实验环境中学习和预测这两类。因此，实验中的操作是放弃交通标志这一类别的分割，并且将骑自行车的人和行人合并为一个新的“人类”类别；

b) 实验的研究目标是语义分割，需要标记为对象轮廓的注释。由于Waymo数据集将LiDAR传感器读数中的物体标记为3D边界框，因此需要将边界框中的所有点投影到图像平面上。图4 (b)显示了车辆和人类两个类别的语义分割结果示例。这样操作的弊端是有一些物体的像素没有相对应的激光雷达点云，所以它就没有标签。

结果

表2 检测性能结果

表3 CLFT各种变体、CLFCN和Panoptic SegFormer的性能

CLFCN是一种基于FCN的网络，融合相机和LiDAR数据进行语义分割，是当前语义分割的主流方法，而Panoptic SegFormer则是纯视觉的transformer方案。如表2所示，CLFT-hybrid模型在所有场景下的单相机和单激光雷达模式下都优于CLFCN和Panoptic SegFormer，在相同的数据上显示出较高的分割能力。CLFT和其他模型之间的差异在黑暗和潮湿等具有挑战性的条件下更加明显，其中CLFT混合性能下降1-2个百分点，而CLFCN和Panoptic SegFormer在单一模式下下降5-10个百分点。此外，在样本数量相对较少的“Human”类别上，CLFT-hybrid展现了更好的性能，说明了基于transformer的模型在诸如不均匀分布的数据集和少样本等场景中优于基于FCN的模型。表3总结了CLFT各种变体、CLFCN和Panoptic SegFormer之间的性能。虽然CLFT-hybrid的IoU得分最高，但CLFCN和Panoptic SegFormer分别具有更高召回率和准确度。表4则是给出了各个模型的推理时间，基于FCN的模型在计算效率上比基于transformer的模型有明显的优势，但是这种差异每帧只有大约10ms，作者认为在性能和速度之间的权衡是合理的，因为在自动驾驶的环境中，分类的性能占据更重要的地位。

表4 各个模型的推理时间

结论

论文提出了一种基于transformer的多模态融合语义分割方法。CLFT模型受益于多模态传感器融合和transformer的多注意力机制，对代表性不足的样本进行了显著改进(人类类别的IoU最多增加10%)，证明了与FCN网络相比，transformer架构在目标分割任务中的优势。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频