所有指标均优于SOTA!MVPBEV:具有可控和泛化性的BEV环视生成

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享一篇具有测试时间可控性和泛化性的BEV多视图透视图像生成工作MVPbev!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心BEV感知技术交流群

编辑 | 自动驾驶之心

写在前面

这项工作旨在解决从给定的鸟瞰图(BEV)语义信息的文本提示中生成多视角RGB图像的问题。与以往忽视布局一致性、缺乏处理详细文本提示的能力或无法泛化到未见视角的方法不同,MVPbev通过两阶段设计同时生成不同视角的跨视角一致图像,从而在测试时实现目标级控制和新颖视角的生成。具体来说,MVPbev首先利用相机参数将给定的BEV语义信息投影到透视图中,使模型能够泛化到未见视角。然后,引入了一个多视角注意力模块,其中采用了特殊的初始化和去噪过程,以明确强制跨视角单应性变换下重叠视图之间的局部一致性。最后但同样重要的是,MVPbev通过优化预训练的文本到图像的扩散模型,进一步实现了测试时的实例级可控性。在NuScenes数据集上进行了广泛的实验,结果表明,提出的方法能够从数千个训练样本的文本描述中生成高分辨率的光照真实感图像,在各种评估指标下均优于最先进的方法。此外,我们还借助新颖的评估指标和全面的人为分析,进一步展示了我们的方法在泛化性和可控性方面的进步。

当前领域背景

多视图图像对自动驾驶任务非常有益。如今,包括安装在前部和侧部的多视图摄像头已成为大型驾驶数据集(如NuScenes、Argoverse和Waymo)中的基本要求。通常,来自多个摄像头视角的图像会被感知并进一步以鸟瞰图(BEV, Bird-Eye-View)的形式表示,随后进行预测和规划等下游任务。直观上,BEV提供了对现实世界的直观接口,因此具有更高的可解释性,对高级建模和决策制定非常有益且实用。

尽管在自动驾驶任务中非常重要,但可靠的BEV表示在训练阶段需要大量的数据,这些数据的获取或标注可能非常耗时。解决这一数据问题的一个直观方法是使用生成模型来获取多样化的视角RGB图像及其对应的BEV语义信息。与对应的视角RGB图像或语义信息相比,多样化且合理的BEV语义信息在参数化表示的帮助下更容易以现实的方式进行模拟。因此,假设已知BEV语义信息而非视角RGB图像是自然而实用的。接下来的问题就是如何利用已知的BEV语义信息生成跨视角且在视觉和语义上保持一致的逼真RGB图像。

为此,本文提出了一种新颖的两阶段方法MVPbev,旨在通过明确执行跨视角一致性来生成具有给定BEV语义和文本提示的可控多视角RGB图像(见图1)。与现有工作中缺乏测试时泛化能力的方法不同,MVPbev进一步允许在测试时更改视角和详细的文本提示,从而在无需额外训练数据的情况下,通过人工分析获得令人满意的性能。为实现这一目标,MVPbev包括两个阶段,即视角投影和场景生成阶段。前一阶段根据相机参数将给定的BEV语义转换为多个视角视图。一方面,它通过明确的几何变换强制跨视角的全局一致性。另一方面,这种设计将两个阶段解耦,使第二阶段能够更好地捕获与视角无关的属性。MVPbev的第二阶段从一个预训练的稳定扩散(SD)模型开始。通过明确引入跨视角一致性模块,结合我们的噪声初始化和去噪过程设计,它能够生成多视角视觉上一致且逼真的图像,特别是在重叠的视野(FOV)中。为了进一步提高测试时对象的泛化能力,我们的MVPbev分别处理前景实例和背景布局,从而在推理过程中实现更好的可控性。

03d7f21d09b5239ae8b0987b48423507.png

在NuScenes上验证了我们的想法,并遵循了标准的数据集划分。与那些专注于改进下游任务或语义一致性的方法不同,我们进行了额外的大量人工分析,特别是针对多个视角重叠视野中的视觉一致性、测试时视角和文本提示的变化。证明了提出的方法不仅提供了更好的测试时可控性和泛化能力,而且还生成了高质量的跨视角RGB图像。简而言之,贡献可以概括如下:

• 一种新颖的多视角图像生成方法,能够仅使用数千张图像作为训练数据,从BEV语义中生成语义和视觉上一致的视角RGB图像。

• 一种更可控且可扩展的算法,能够生成逼真的视角RGB图像。

• 在大型驾驶数据集上实现了最先进的性能,并进行了全面的人工分析。

相关工作

图像编辑和生成是计算机视觉中的热门话题。尽管这可能与大量文献相关,但这里将重点关注两个研究方向,即条件图像生成和新视角图像合成,因为它们密切相关。

条件图像生成:生成模型,如高斯混合模型和贝叶斯网络,一直是机器学习和计算机视觉领域长期的研究问题,因为它们能够解释复杂的数据分布。特别是,图像生成模型不仅对无监督特征学习具有重要意义,而且还支持图像编辑等应用。随着深度学习技术(如自回归模型、变分自编码器(VAEs)和生成对抗网络(GANs))的兴起以及海量数据的出现,我们观察到了质量极高的逼真图像。其中,条件GANs已被广泛研究,考虑了包括离散标签、文本和图像在内的各种约束。最近,稳定扩散模型被广泛用于根据文本描述生成详细的图像。与现有技术相比,它们不仅展示了最先进的图像生成质量,而且在基础模型的帮助下展现了出色的泛化能力。随后,Controlnet通过允许多样化的条件控制(如深度、语义或草图),在保持原有鲁棒性的同时,大大提高了扩散模型的整体性能。尽管取得了令人印象深刻的进展,但多视角或跨视角文本到图像的生成仍然面临计算效率和跨视角一致性的问题。

为此,MVDiffusion提出了一种新颖的对应关系感知注意力模块,该模块能够从文本中创建多视图图像,并保持全局对应关系。尽管MVDiffusion能够提供良好的多视角RGB图像,但它无法推广到更剧烈的视角变化或更小的重叠区域。可能包括BEVGen、BEVControl和MagicDrive在内的并行工作与我们的工作最为接近。第一个工作通过采用具有跨视角注意力的自回归转换器,基于BEV语义生成了多视角视觉一致的图像。而后两个工作则结合图像草图/语义和文本,利用跨视角跨对象注意力来更专注于单个内容的一致性。然而,现有的工作都没有实现测试时的泛化能力,例如视角变化或详细的实例级文本提示。它们也没有对图像生成质量进行人工分析。相比之下,我们提出了同时利用全局和局部一致性来增强语义和视觉连贯性的方法,并结合我们的无训练目标控制方法来加强详细的实例级控制。此外,我们还提供了全面的人工分析,以更可靠地证明我们方法的有效性。

新视角图像合成:新视角图像合成方法大致可分为基于几何的方法和基于学习的方法两大类。前者试图首先估计(或伪造)近似的基础三维结构,然后对输入图像中的像素应用一些变换以产生输出。而后者则认为新视角图像合成从根本上说是一个学习问题,因为否则它将是严重缺乏约束的。最近,属于第二类的神经辐射场(NeRF)在特定场景的新视角图像合成方面表现出了令人印象深刻的性能,它通过神经网络隐式地编码volumetric密度和颜色。从小规模场景开始,也提出了场景级NeRF,如Block-NeRF,从而通过重建大规模环境来支持重要的用例,如自动驾驶和航空勘测。相比之下,我们的方法将BEV语义和文本描述作为输入,并输出多视角RGB图像。

MVPbev方法介绍

本文的方法旨在根据给定的像素级BEV语义对应关系,从文本提示中生成多视角图像。具体来说,将BEV语义表示为,其中自车位于中心。、和分别是B的高度、宽度和语义类别数量。论文的目标是在M个虚拟相机视角下生成一组分辨率为𝐻×𝑊的透视RGB图像,或特别地表示为{𝐼𝑚}𝑚。其中,第m个透视图像被称为,其中m = {1, ..., 𝑀}。特别地,假设第m个相机的内参、外旋和外平移是已知的,并分别用、和来表示。

如上所述,通过隐式和显式地利用全局和局部一致性来获得视觉上连贯的多视角图像。具体来说,方法包括两个阶段。第一阶段将BEV语义B以及{𝐾𝑚, 𝑅𝑚,𝑇𝑚}𝑚作为输入,并根据每个视角的相机参数集将BEV语义投影到每个透视视图上,将第m个视角的结果表示为。第二阶段将和文本提示作为输入,并从M个透视视角生成RGB图像。

83639ca5e32a3d34eb39713231989796.png

并且它根据M个透视视角生成RGB图像。表示从第m个视角生成的RGB图像。更具体地说,第一阶段投影过程通过几何变换的帮助,显式地强制BEV和透视视图之间的全局语义一致性。同时,生成阶段通过多视角注意力模块隐式地在重叠的透视视图之间施加一致性。最后,提出通过新颖的训练初始化和去噪设计,显式地强制重叠视野(FOV)中的视觉线索保持连贯。MVPbev的总体流程可以在图2中找到。

10d1b7c77aa7bf2191e61a6477ec24e6.png

1)语义一致性的视图投影

假设使用现有的模拟方法可以毫不费力地获得各种但合理的BEV语义B,那么我们的方法应该解决的第一个基本问题是保持从B到透视图{𝐼𝑚}𝑚的跨视图语义一致性。其次,重叠视野(FOV)中的内容也应该是一致的。例如,不仅背景类别(如建筑物或树木),而且前景道路参与者在不同视角出现时也应该具有相似的apperance。为此,首先提出使用相机参数将BEV语义投影到M个视角上,生成)透视角语义。与现有工作相比,投影步骤通过几何约束确保了BEV和透视图之间的语义一致性,从而在生成步骤中减少了累积误差。

2)视角一致的图像生成

仅仅关注单个透视角的语义可能导致不同视图之间的内容不一致,特别是在重叠的视野(FOV)中。例如,在多个视图(如前方、前右方、后方和后左方)的视野中出现的建筑物和植被具有不同的外观。这是由于跨视图相机之间缺乏交互。这里想要指出的是,这种不一致性既不会通过鸟瞰图(BEV)布局分割来反映,也不会通过目标检测指标来反映,因为它仅影响背景类别。

受此启发,我们提出在方法上和实验上都应关注这些重叠区域。就提出的方法而言,通过估计重叠区域的单应性,对背景内容施加强烈的连贯性约束,然后利用多视角注意力模块隐式地强制不同视图的风格与估计的对应点保持一致。在这种情况下,不仅可以在提供语义的背景布局区域上强制外观一致性,而且还可以在缺少控制信号的其他区域上强制外观一致性。就评估目的而言,引入人为分析来提供可靠评估,以判断生成的图像,特别是重叠区域,是否真实。

单应性估计:这里通过估计重叠区域来迈出在重叠视野(FOV)中强制视觉一致性的第一步。为此,提出计算具有重叠视野的图像之间的单应性。正如许多驾驶数据集所示,一个视野通常与其左右两侧的视野重叠。因此,对于第m个视野,我们只需要考虑和,它们分别是第m个视野的左侧和右侧视野。然后估计从视野到视野m的单应性,并将映射函数表示为。因此,第m个视野中的p = [x, y]坐标将被映射到视野中的p̂ = [x̂, ŷ]坐标。或者p̂ = 。类似地,我们定义了一个逆映射,它将中的p̂映射到中的p。

8deaf4d1bbff7c424b80a360d9a413fd.png

多视图注意力模块:是什么使得一组视图看起来不真实?首当其冲的是图像之间的不一致性。换句话说,真实的视图必须看起来是一致的,就好像它们是在同一天的同一物理位置拍摄的。更具体地说,这组图像的视觉风格需要保持一致,以便它们看起来都是在同一地理区域(如城市与乡村)、同一天的时间、相同的天气条件下等创建的。为此,我们引入了一个多视角注意力模块,以便在生成第m个视图的RGB图像时,考虑其左右两侧的视图。对于位于第m个视图生成的特征图中位置p的标记,根据由视图m̄ ∈ {mr, ml}生成的特征图中对应的像素K(p̂)来计算注意力输出,其中p̂ * ∈ K(p̂)表示以p̂为中心的KxK区域。在数学上,遵循与[30]中类似的公式,并将我们的多视角注意力模块定义为:

223dcb2ed825ef15086c1494c49054d2.png

3)模型训练与推理

为了训练我们的模型,我们引入了多视角潜在扩散模型(LDMs)损失。基本上,原始的LDMs由一个带有编码器E和解码器D的变分自编码器(VAE)、一个去噪网络δθ和一个条件编码器τθ组成。输入图像通过ε映射到潜在空间,其中。按照惯例设置,并且它们都等于8。之后,潜在变量将被转换回图像空间,得到。去噪网络δθ是一个时间条件UNet,它利用交叉注意力机制来结合条件编码τθ(c)。在我们的案例中,c由文本提示和透视视图中的语义组成。

在每个训练步骤中,首先为所有多视角图像统一地从1到T中采样一个共享噪声水平t,并将它们表示为ε。其中,ε。为了利用跨视角一致性,进一步强制要求如果噪声对应于相同的像素,则这些噪声必须相同。从第一个视角或m=1开始,我们将ε在坐标x, y上的值或ε重新赋值为ε。重复此过程,直到。在图5中提供了一个初始化的ε示例集。最后,模型训练目标定义为:

370e7047c8f4a5f343d10aaf9b43799e.png

推理:如上所述,MVPbev可以扩展到实例级别的可控性。MVPbev允许用户点击目标实例并提供特定颜色的要求。为了实现这一点,提出了一种针对多个前景目标控制的特殊机制,该机制通过操纵交叉注意力层的响应来准确指导实例级别的合成。假设可以通过现有方法或简单检索在每个视图中获得实例级别的掩码。首先分别使用其配对的提示获得实例级别和场景级别的潜在变量。然后,它们与这些二进制实例级别掩码有效结合,从而实现更一致的空间性能。请注意,MVPbev在前景对象上的这种能力是无需训练的,从而导致了更好的可扩展性和测试时可控性。

实验对比

数据集:在NuScenes数据集上验证了我们的想法,该数据集由六个camera提供的360度全景覆盖。它包含了波士顿和新加坡的1000个街景场景示例,每个场景持续20秒,以12Hz的频率捕获。除了140万张摄像头图像外,NuScenes还提供了多模态数据,包括全局地图层和在4万个关键帧上标注的3D目标边界框。遵循700/150/150的标准划分来进行训练、验证和测试。

9b44e4593f74ec98a81906019d4545ac.png 7cebf87cb864f918d7af83ff30cee8e1.png a100b03a65b4f69a4b3b422f1767ee28.png b56dfbc74cf0ad9eff8db1f7aa813261.png 981fd5e9f1d738a56becfdb6e8742bb2.png

参考

[1] MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and Generalizability

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

80b5d983f479f0d500e1b22b885db9e4.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

185f35cf14c447574f82ccce08969869.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

7e0c0d95e7113d3be336414e231fdf9e.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

f591e8ecf3028eaba458687fd2b0c8ad.jpeg

④【自动驾驶之心】全平台矩阵

906da43750cec2dffda499379f6d3ba2.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值