PerlDiff：使用扩散模型进行可控的自动驾驶场景数据生成

最新推荐文章于 2025-05-06 08:30:17 发布

自动驾驶之心

最新推荐文章于 2025-05-06 08:30:17 发布

阅读量445

点赞数 1

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247618419&idx=4&sn=c0c5aa81aa0514c9f7c2993425457e22&chksm=cfc157101a8083e43edd6981f77aed4a9fa3949ef69aa6faae92ceb123670b580285aa6fc651&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享一篇使用透视布局扩散模型进行可控的街景合成工作PerlDiff！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『自动驾驶』技术交流群

论文作者 | 自动驾驶Daily

编辑 | 自动驾驶之心

文章链接：https://arxiv.org/pdf/2407.06109

项目链接：https://perldiff.github.io/

主要贡献：

提出了新框架 PerlDiff，用于根据用户定义的3D注释生成街景图像。PerlDiff 利用透视布局掩码作为几何先验，精确引导物体层面的图像生成过程。
提出了基于 Perl 的交叉注意机制，该机制利用3D注释中的透视布局掩码图来增强 Perl-CM 中的交叉注意机制。这种方法通过整合道路和 BEV 注释的特定物体信息，实现了对街景图像生成过程的精确控制。
PerlDiff在NuScenes 和 KITTI 数据集上达到了SOTA，显著提高了将生成街景图像用于目标检测和分割上的实验结果。

可控生成被认为是解决 3D 数据标注挑战的一种的重要方法，而这种可控生成的精确性在自动驾驶的数据中变得尤为重要。现有方法侧重于利用 GLIGEN 或 ControlNet 等框架，将各种生成信息整合到控制输入中。虽然在可控生成方面取得了不错的成果，然而，这些方法本质上将生成性能限制在预定义网络架构的学习能力范围内。PerlDiff 充分利用透视 3D 几何信息进行有效街景图像生成，采用 3D 几何先验来指导街景图像的生成，并在网络学习过程中进行精确的物体层面控制，从而获得更准确、更可控的输出结果。

方法设计

训练数据：

NuScenes 数据集包括 1,000 个城市交通场景，分为 700 个训练场景和 150 个验证场景。每个场景有六幅高分辨率图像（900×1600），提供了一个完整的 360 度全景视图。NuScenes 还包括驾驶环境的综合路图，其中包括车道标记和障碍物等细节。
KITTI 数据集包含 3,712 幅训练图像和 3,769 幅验证图像。KITTI 数据集只有一张透视图像，没有路图信息。鉴于 KITTI 数据集的图像分辨率不同（约 375×1242），将其填充为 384×1280 以进行生成。

控制条件编码

根据交通场景的 BEV 注释，目标是生成多视角街景图像。不仅要提取场景信息，而且还要提取物体信息作为控制条件。

Perl场景信息：

透视场景图像：生成场景的背景信息，包含驾驶环境的路面以及障碍物等信息，使用不同颜色区分道路和其他背景元素；

场景文本描述：自定义生成场景的文本描述，可说明天气情况以及是在白天还是夜晚；

如何对其编码？

ConvNext:用于编码通过 BEV 注释投影得到的透视场景图像，来生成场景的背景特征编码；
CLIP文本编码：用于编码文本场景描述 , 生成场景特征编码；

Perl物体信息：

物体几何数据：将 BEV 注释投影到对应的透视视角，得到每一个物体边界框的的8个 2D 角点坐标；

物体类别文本信息：给出每一个物体属于类别的描述文本，如车，行人等；

如何对其编码？

Fourier 编码：用于编码物体几何数据，得到几何特征编码；
CLIP文本编码：用于编码物体类别文本信息,得到类别编码特征；
多层感知机（MLP）：将物体几何特征和类别特征融合，得到每一个物体的特征编码；

基于 Perl控制模块（Perl-CM）实现物体可控性

Perl-CM 负责将控制条件信息（包括 Perl 场景和物体信息）通过基于 Perl 的场景和物体交叉注意机制整合到潜在特征图中。首先该机制会为注意力图分配初始值, 然后在道路和边界框 Perl 掩码图的引导下，在整个网络训练过程中对这些值进行优化，以确保注意图的响应与物体所在区域准确对应；
为了确保多视图一致性，视图交叉注意力利用了紧邻的左视图和右视图的信息，以实现不同视角的一致性；
文本交叉注意力利用文本场景描述来处理街道场景的天气和照明条件；

Perl（路面/物体边界框）掩码图：

Perl 路面掩码图由将BEV标柱投影到透视视角后得到的路面注释得到，非空区域像素置为1，其他区域为0；
Perl物体边界框掩码图通过将每一个物体的BEV标柱投影到透视视角后，将其3D边界框所在在内部区域像素置为1得到，代表物体标注框的数量；

Perl-based 交叉注意力：

传统的交叉注意力中控制条件与图像特征对应关系并不精确，导致生成图像并不能很好的满足给定的条件，而PerlDiff利用几何先验掩码图来增强输入控制条件与街景图像之间的交叉注意学习，将从场景上下文和边界框中获得的几何知识纳入交叉注意的计算中，确保路图和物体边界框数据在去噪过程的每个阶段都会与噪声街景图像精确对齐。

讨论：

与 BEVControl、MagicDrive、DrivingDiffusion 和 Panacea 等采用普通交叉注意机制来整合控制条件信息的方法不同。PerlDiff 通过 Perl 掩码图引入了几何先验，在训练阶段利用物体对应的控制信息来指导其生成，从而有效解决注意力图和条件信息之间常见的错位问题（导致图像可控性受损），显著提高了生成图像的准确性。

实验结果：

NuScenes数据集：PerlDiff 在多个指标上均优于 BEVControl 和 MagicDrive 等现有方法，特别是在 3D 目标检测指标图平均精度（mAP）和 NuScenes 检测指标（NDS）；

KITTI数据集：PerlDiff 在小样本数据集上仍然有很好的泛化性，相比于采用普通交叉注意力的BEVControl*，PerlDiff 在单目目标检测器MonoFlex上的指标是其十几倍。同时，实验说明利用在 NuScenes 上训练过后在 KITTI 上微调能达到更好的效果；

数据增强：PerlDiff利用合成数据集来提高各种检测模型在 NuScenes 测试集上的性能。其中，使用 NuScenes 训练集和验证集（第二行）的指标作为上限，来验证共同使用 NuScenes 真实训练集和 PerlDiff 生成验证集后，与其差距大小；

基于 Perl 的交叉注意力机制的效果：通过将其换成普通的交叉注意力机制，3D目标检测（BEVFormer）和BEV分割（CVT）指标大幅度变差，来说明其有效性；

Perl（路面/物体边界框）掩码图控制系数：不同掩码图权重系数代表几何先验知识融入网络学习的程度；

可视化结果比较：给出了相比于 BEVControl*，PerlDIff 在控制物体角度、位置、大小方面的有效性；

其他可视化结果：

主要结论：

PerlDiff 通过整合几何约束和扩散模型，在生成高保真度视觉图像的同时，提供了精确的控制信息，增强了图像生成的可控性。实验证明，PerlDiff在 NuScenes 和 KITTI 数据集上表现出色，有望在未来成为一个强大的交通模拟器。未来工作将探索视频生成，以进一步提升模型的应用潜力。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频