GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。
最近,一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文针对自动驾驶场景对 GPT-4V 的能力进行了难度递增的测试,从情景理解到推理,再到作为真实场景驾驶员的连续判断和决策。GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了
论文地址:https://arxiv.org/pdf/2311.05332.pdf
具体来说,论文对 GPT-4V 在自动驾驶领域的探索主要集中在以下几个方面:
1、情景理解:该测试旨在评估 GPT-4V 的基本识别能力,包括识别驾驶时的天气和光照条件,识别不同国家的交通信号灯和标志,以及评估不同类型摄像头拍摄的照片中其他交通参与者的位置和行动。此外,出于好奇,他们还探索了不同视角的模拟图像和点云图像。
2、推理:在这一阶段,研究者深入评估了 GPT-4V 在自动驾驶环境下的因果推理能力。这项评估包括几个关键方面:首先,他们仔细研究了它在处理复杂 corner case(边缘情况,即发生概率较低的可能场景)时的表现,这些情况通常是对数据驱动感知系统的挑战。其次,他们评估了它在提供全景视图(surround view)方面的能力,这是自动驾驶应用中的一项重要功能。鉴于 GPT-4V 无法直接处理视频数据,他们利用串联的时间序列图像作为输入来评估其时间相关性能力。此外,他们还进行了测试,以验证其将现实世界场景与导航图像关联起来的能力,从而进一步检验其对自动驾驶场景的整体理解能力。
3、驾驶:为了充分发挥 GPT-4V 的潜力,研究者让它扮演一名经验丰富的驾驶员,让它在真实的驾驶环境中根据环境做出决策。他们的方法是以一致的帧率对驾驶视频进行采样,然后逐帧输入 GPT-4V。为了帮助它做出决策,他们提供了基本的车速和其他相关信息,并告知了每段视频的驾驶目标。他们要求 GPT-4V 采取必要行动,并对其选择做出解释,从而挑战其在实际驾驶场景中的能力极限。
测试采用了经过精心挑选的代表不同驾驶场景的图片和视频。测试样本来自不同渠道,包括 nuScenes、Waymo Open 数据集、Berkeley Deep Drive-X (eXplanation) Dataset (BDD-X)、D2 -city、Car Crash Dataset (CCD)、TSDD、CODA、ADD 等开源数据集,以及 DAIR-V2X 和 CitySim 等 V2X 数据集。此外,还有一些样本来自 CARLA 模拟环境,其他样本则来自互联网。值得注意的是,测试中使用的图像数据可能包括时间戳截至 2023 年 4 月的图像,有可能与 GPT-4V 模型的训练数据重叠,而本文中使用的文本查询完全是重新生成的。
实验结果表明,GPT-4V 在情景理解、意图识别和驾驶决策等方面展现出超越现有自动驾驶系统的潜力。
在 corner case 中,GPT-4V 可利用其先进的理解能力来处理分布外(OOD)的情况,并能准确评估周围交通参与者的意图。GPT-4V 利用多视角图像