Abstract
在自动驾驶领域,对高质量的标注训练数据的需求日益增加。在本文中,我们提出了Panacea,这是一种创新的方法,用于生成驾驶场景中的全景和可控视频,能够生成无限数量的多样化、标注的样本,对于自动驾驶的进步至关重要。Panacea解决了两个关键问题:“一致性”和“可控性”。一致性确保了时间和跨视角的一致性,而可控性确保了生成内容与相应标注的对齐。我们的方法结合了新颖的4D注意力机制和两阶段生成管道来保持一致性,并通过ControlNet框架对鸟瞰图(BEV)布局进行细致控制。Panacea在nuScenes数据集上的广泛定性和定量评估证明了其在生成高质量多视角驾驶场景视频方面的有效性。这项工作显著推动了自动驾驶领域的发展,通过有效增加用于先进BEV感知技术训练的数据集。项目地址:https://panacea-ad.github.io/
全景和可控视频
Introduction
在自动驾驶领域,鸟瞰图(BEV)感知方法引起了极大的兴趣,这些方法在包括3D检测、地图分割和3D车道检测等关键感知任务中表现出显著潜力。以StreamPETR为例的前沿BEV感知方法是在多视角视频上训练的。因此,构建强大的自动驾驶系统的关键在于高质量、大规模的标注视频数据集。然而,获取和标注这些数据面临着巨大的挑战。组装涵盖各种天气、环境和光照条件的多样化视频数据集不仅面临挑战,有时还伴有风险。此外,视频数据的标注需要大量的人力和成本。
受到利用合成街道图像提高感知任务性能成功案例的启发,我们的提议专注于生成合成的多视角驾驶视频数据,以支持前沿的视频感知方法的训练。为了减少高昂的标注成本,我们计划利用BEV布局序列,这些序列包括3D边界框和道路图,用于生成相应的视频。这样的BEV序列可以从标注视频数据集中获得,或者使用先进的模拟器合成。因此,这一倡议可以表述为基于BEV序列生成多样化的多视角驾驶视频。我们生成模型的有效性依赖于两个关键标准:可控性和一致性。通过输入BEV序列和描述性文本提示让用户管理生成的视频定义了可控性,而一致性强调了单一视角视频的时间一致性和多视角的一致性。
Method
预备知识:潜在扩散模型
扩散模型(DMs)通过迭代去噪正态分布的噪声ϵ来近似数据分布p(x)。具体来说,DMs首先通过一个固定的前向扩散过程构建扩散输入xt,如公式1所示。这里αt和σt表示给定的