工业级测评GPT-4V：大模型在自动驾驶中真的无所不能吗？-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享中科慧拓最新的工作：全面探索了GPT-4V视觉大语言模型在矿山环境中的自动驾驶应用！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『大语言模型』技术交流群

论文作者 | Zixuan Li

编辑 | 自动驾驶之心

写在前面

本文探讨了GPT-4V（视觉）大型视觉语言模型在采矿环境中自动驾驶的应用，其中传统系统常常在理解意图和紧急情况下做出准确决策时遇到困难。GPT-4V引入了视觉问答和复杂场景理解的能力，解决了这些特殊环境中的挑战。我们的评估重点关注其在场景理解、推理和驾驶功能方面的熟练程度，特别测试了其识别和解释行人、各种车辆和交通设备等元素的能力。虽然GPT-4V表现出了强大的理解和决策制定能力，但在准确识别特定车辆类型和管理动态交互方面仍面临困难。尽管存在这些挑战，其有效的导航和战略决策制定能力展示了其在采矿环境复杂条件下作为自动驾驶可靠代理的潜力，突显了其在工业环境中的适应性和操作可行性。

领域背景

自动驾驶技术正在迅速发展。许多关于自动驾驶的算法在公共数据集上进行测试时，已经达到了满足三级甚至四级自动驾驶标准的性能水平。尽管有这些进步，但传统的自动驾驶系统仍然依赖于一个包含感知、控制和决策过程的结构化方法来实现车辆导航。然而，当前的自动驾驶算法仍然面临重大挑战。这些算法常常因为训练数据集中对象类型的多样性受限而表现出长尾效应和有限的泛化能力。此外，它们通常缺乏对周围实体意图的深入理解，特别是在像采矿场景这样的特殊环境中。这种不足在紧急或极端条件下变得尤为明显，在这些情况下，算法难以进行准确的推理并做出迅速、适当的决策。

将大型语言模型，如Llama2、Gemini和GLM，融入自动驾驶系统是一种有前景的策略，以应对现有挑战。尽管这些模型在环境理解方面表现出了相当的能力，但它们在特定环境（如采矿场景）中的有效性，其中越野车辆状态推断和路径规划至关重要，仍需要进行全面评估。这些模型所促进的有效推理和决策制定对于确保自动驾驶车辆在如此复杂环境中稳定运行至关重要。

GPT-4V，一个开创性的视觉大型语言模型，为采矿环境中的自动驾驶引入了一种创新方法。该模型具备视觉问答和复杂场景理解的能力。本研究的重点是对GPT-4V在采矿自动驾驶特定应用中的场景理解和决策能力进行实验评估。本文实施了一系列精心设计的测试，以评估该模型在严苛的采矿环境中的适应性和有效性。本文详细探讨了GPT-4V在自动驾驶中的潜力和限制，并对其在不同场景下的性能进行了系统分析。

对GPT-4V能力的评估围绕三个关键维度展开：场景理解、推理以及执行驾驶功能的能力。这些元素对于评估模型在复杂的采矿环境中管理自动驾驶复杂性的有效性至关重要。通过仔细研究GPT-4V如何处理这些方面，旨在验证其作为自动驾驶agent的潜力和可靠性，特别是在需要复杂认知和操作技能的情况下。

场景理解：本次评估旨在评估CPT-4V在采矿环境中对目标的识别能力，这些目标包括行人、各种类型的车辆、机械设备、矿石堆以及交通控制设备（如信号灯和路标）等。同时，它还会检查这些目标的属性，如距离、位置、速度和内容。目的是衡量CPT-4V在采矿场复杂背景下识别和解释这些多样化元素的准确性。这种熟练程度对于确保在这些环境中安全有效地导航至关重要。准确识别和响应环境线索的能力使GPT-4V能够与其周围环境进行动态交互，从而基于对当前环境的全面理解来调整车辆行为。

推理：在本节中，评估了GPT-4V在紧急和极端事件期间理解环境状况的能力，以及为我们的车辆制定应对策略的能力。评估还检查了GPT-4V随时间识别其他车辆驾驶意图的能力。这些评估对于确定GPT-4V在预测和应对动态和潜在危险场景方面的有效性至关重要，这对于确保自动驾驶车辆在挑战性条件下的安全性和运营效率至关重要。

作为驾驶员：在这项研究的这一部分，评估了GPT-4V在矿区作为驾驶员的能力，评估了其规划路线和执行与熟练人类驾驶员相似的任务的能力。为此给GPT-4V分配了五个特定的驾驶任务：掉头、超车、寻路、停车和车道合并。对于每个任务，提供了一系列图像，并要求GPT-4V基于视觉信息完成指定的驾驶操作。这种方法能够深入分析GPT-4V在实时情况下如何有效地解读复杂的驾驶场景并做出战略决策，反映了它在多样化和挑战性环境中自主运作的潜力。

场景理解

矿区存在许多复杂的场景，决策者需要对环境有全面的理解，并准确推断出其他车辆或设施的意图。在本文的GPT-4V评估中，特别设计了测试来评估其在矿区环境中的场景理解能力。这些测试涵盖了一系列功能，包括识别不同类型的车辆，如采矿卡车、轿车和皮卡；识别路边信号和标志；以及检测矿区典型的非结构化道路和矿石堆。GPT-4V识别和检测人员以及采矿机械的能力，特别是机械臂，也经过了严格的测试。例如，当机械臂靠近车辆时，GPT-4V必须密切监视其动作并做出适当的反应，如减速或停车。相反，在没有此类障碍物的更开阔的道路场景中，GPT-4V可以采用更轻松的导航策略。

1）理解场景中的人

在评估GPT-4V在采矿环境中识别人员存在的能力时，进行了一系列测试来评估关键因素，包括人员数量、人员与车辆的相对位置、人员与车辆之间的距离，以及他们的运动状态。这些要素至关重要，因为采矿环境中人类活动的动态经常与城市环境中观察到的动态存在显著差异。尽管GPT-4V能够准确地从车辆上定位到个体，但它也面临了误识别的挑战，特别是在某些情况下将车门误认为是人，如图2所示。尽管存在这些障碍，GPT-4V在评估人类状态方面总体上表现出了强大的能力。

2）理解场景中的车

大量采矿卡车驶出矿井，伴随着众多从事建设活动的车辆。这种场景提出了相当大的挑战，对于准确的车辆驾驶判断至关重要。在评估GPT-4V在理解矿区车辆相关场景的能力时，我们评估了几个参数：车辆的数量、类型、速度和方向。总的来说，GPT-4V在这些具有挑战性的场景中展示了有限的车辆识别准确性。

数量和类型：GPT-4V在准确识别车辆类型方面遇到了挑战，这受到矿区普遍存在的灰尘和典型的大距离的影响。如图3和图4所示，GPT-4V无法识别远处的车辆，如一辆黑色皮卡和一辆黄色卡车。在图4中也出现了错误分类的情况，GPT-4V错误地将一辆卡车识别为其他类型。车辆计数错误也很明显，如图5和图6所示，GPT-4V错误地计算了采矿卡车的数量。此外，在图10所示的场景中，GPT-4V要么未能检测到起重机，要么将其误识别，而在图7所示的情况下，它检测到了不存在的车辆。

速度和方向：GPT-4V无法为某些车辆提供速度和方向数据，因为GPT-4V无法检测到太远的车辆，如图3和图4所示。由于评估涉及静态图像，GPT-4V错误地将所有车辆都视为静止的，包括图5和图8中正在运动的采矿卡车和图11中正在移动的起重机。事实上，根据周围环境，可以确定车辆正在运动。一般来说，GPT-4V使用可见的灰尘轨迹来估计车速，尽管其大多数速度和方向判断是准确的，但仍然存在差异。

状态：GPT-4V经常误判专用车辆如采矿卡车和挖掘机的运行状态。例如，它错误地断定挖掘机在进行挖掘活动，而实际上它们只是在移动，如图3和图4所示。在图11中也观察到了类似的错误，其中采矿卡车被错误地假定为参与施工任务。相比之下，GPT-4V在图6中正确识别了水车的活动，在图9中正确识别了挖掘机。总的来说，GPT-4V对采矿卡车和机械的行为和操作动态缺乏了解。

相对距离：GPT-4V准确地评估了已识别车辆相对于观察者车辆的位置。例如，在图10中，它与一辆轿车保持安全距离，并精确确定了图5中挖掘机和采矿卡车的方向。在图6中，它准确地判断了皮卡的方向和与远处卡车的距离，显示出在控制车辆相对于自身的方向和距离方面的精确度。

这项研究强调了GPT-4V在矿区车辆场景理解方面的优势和不足，强调了需要进一步改进以增强其在这些复杂环境中的性能。

3）场景中的铁路枕木理解

在评估GPT-4V时，研究了它在理解矿区内动态变化景观和模糊边界的未结构化道路和矿石堆方面的能力。GPT-4V在具有更清晰道路特征的场景中表现出色，能够准确地将道路上的矿石堆识别为边界，如图12和图15所示。然而，在矿区更为复杂的部分，如图13所示，GPT-4V识别了矿渣，但未能识别由矿渣累积形成的矿石堆。虽然GPT-4V能够有效地区分靠近道路的矿石堆并准确识别道路边界，但在持续识别路面材料组成方面遇到了困难。例如，在图14中，它错误地将一条泥土路分类为沥青路。另外，在通过植被而不是矿石堆来定义道路边界的矿区，GPT-4V成功适应并识别了这些自然边界。这种适应性突显了GPT-4V在矿区复杂环境中解释各种环境线索的能力。结果表明，GPT-4V对矿区道路有深入的理解，使其能够准确识别这些区域的道路。

4）场景中的机械基础设施理解

在采矿环境中，识别广泛的机械基础设施至关重要，特别是包括机械臂的挖掘机。这些挖掘机的运行状态和机械臂的位置对车辆的机动性有重大影响。当这些机械臂处于活动并旋转的状态时，车辆必须谨慎操作以避免与它们发生碰撞。虽然GPT-4V有效地识别了挖掘机及其机械臂，但它准确评估这些机械臂运动的能力还有待提高。例如，GPT-4V对机械臂运动的评估被发现有所不足。此外，GPT-4V在准确预测机械臂的位置和方向运动方面也遇到了困难。然而GPT-4V在识别机械臂方面表现出了出色的性能。由于这些都是单张图片，GPT-4V无法准确评估机械臂的运动状态。在测试中，GPT-4V在理解机械臂方面表现出色。

5）场景中的交通标志理解

交通信号和标志对于矿区车辆的导航至关重要，因为它们根据识别的内容指导驾驶行为，如速度和转弯。然而，GPT-4V准确且迅速地识别这些交通信号和标志内容的能力仍然是一个问题。我们进行了测试以评估GPT-4V在识别道路附近交通信号和标志的数量、位置、距离和内容方面的准确性。GPT-4V在估计交通信号和标志的数量、位置和距离方面表现出了相当准确的估计。然而，在内容识别方面频繁出现错误。值得注意的是，GPT-4V在解读标志内容方面遇到了困难。GPT-4V还难以识别不太常见的交通标志，如T型路口交通标志、保持车距交通标志和禁止超车交通标志。虽然GPT-4V可以识别交通标志上的数字，但它不理解这些数字的意义。此外，GPT-4V无法识别中文交通标志。交通标志在提供重要警报和指导车辆导航方面发挥着关键作用。然而，GPT-4V在这些标志识别方面的能力较差，这是不可接受的，必须加以解决以确保安全。

推理

推理能力在自动驾驶系统中发挥着至关重要的作用，不仅需要基本的决策制定，还需要预测其他实体的行为，以及快速、准确地应对紧急情况和极端场景，并进行路线规划。

1）紧急情况和极端事件

在强烈光照的场景中，眩光会严重损害人的视力，导致眩目，并使驾驶员需要时间来适应不断变化的光线条件。我们选择了两张图片来评估GPT-4V在这种极端条件下的性能。在第一个场景中，明亮的光线与车辆交通相交，GPT-4V成功识别了一辆矿用卡车，但错误地将强烈的光线识别为车辆的前照灯，这展示了它即使在夜间条件下也能识别积雪和路标的能力。在这种情况下，GPT-4V规划了车辆谨慎跟随前方车辆并保持安全距离的路径。在第二个场景中，尽管GPT-4V继续准确识别路边特征和车辆灯光，但它在准确解读路标内容方面遇到了困难。它执行了规避操作以避免迎面而来的车辆，并关闭了远光灯，根据路标指示调整其响应。这些测试突显了GPT-4V在夜间和强烈光线条件下有效导航和规划路线的能力。

在具有挑战性的场景中，GPT-4V设计合适路线以使车辆离开特定区域的能力正在接受审查。如图38所示，在第一张图片中，GPT-4V的环境评估大致准确，显示了一台大型挖掘机，但没有可见的道路。系统建议车辆减速并绕开机械设备，但它未能提供明确的绕行路线。在第二张图片中，GPT-4V再次准确地评估了环境，指示车辆绕开前方的大型挖掘机，并与现场人员沟通。这些测试表明，虽然GPT-4V通常可以评估环境，但在详细的路线规划方面存在困难。

2）时间序列

在本小节中，我们通过向GPT-4V展示多组图像来评估其在理解时间序列方面的能力，每组图像都标有序列号或时间戳。这一测试旨在考察GPT-4V有效解读关键帧的能力，特别是辨别其他车辆移动背后的意图。此外，我们还评估了基于GPT-4V解读结果所采取的后续驾驶动作的适当性。这种方法旨在确定GPT-4V在连续上下文中处理和响应动态情况的能力，这对于做出知情和预测性的驾驶决策至关重要。在这一系列图像中，我们监测的车辆保持静止。该序列包括特定场景，如存在推土机的建筑工地。GPT-4V成功识别了这些元素，并提供了合理的解读，正确判断了我们车辆当前执行的驾驶行为。总的来说，评估结果是准确的。然而，也注意到了一些不准确之处——例如，GPT-4V错误地认为我们的车辆正在缓慢移动，而实际上是其他车辆在移动。这个问题强调了需要进一步完善GPT-4V准确解读动态场景的能力，特别是在区分同一视觉环境中不同实体的运动方面。

在图39中，GPT-4V能够推断出这个场景涉及超车动作。虽然它没有精确识别前方车辆的类型，但它准确地评估了前方车辆的速度和方向。然而，它对我们车辆的驾驶行为的推断是不恰当的；我们预计我们的车辆应该加速超车，但GPT-4V却建议减速。此外，GPT-4V错误地评估了我们车辆的状态，我们的车辆实际上正在执行超车动作。

在图40中，捕捉到了涉及几辆矿用卡车的转弯动作，GPT-4V准确地评估了场景中大多数车辆的状态，尽管在确定一辆车的方向时犯了一个小错误。然而，它对我们车辆的状态做出了严重误判。错误包括对我们车辆转弯动作的错误解读及其与其他车辆的交互。这表明GPT-4V在复杂场景中做出精确判断的能力，特别是在理解多辆车之间的动态交互方面，需要进一步增强。

图41展示了一段在十字路口拍摄的视频，其中包括几辆卡车和交通信号灯。一辆白色卡车和一辆黄色卡车靠近交叉口。GPT-4V成功识别了黄色卡车、白色卡车和路标。然而，当黄色卡车位于路口的分叉处并执行转弯时，GPT-4V错误地解读了它的移动。尽管对黄色卡车的判断有误，但GPT-4V对我们车辆状态的推断基本上是正确的，这表明虽然它的车辆识别是可靠的，但它在十字路口对动态车辆移动的解读需要改进。

图42描绘了一辆车辆在雪地上转弯的情景。在这种条件下，能见度大大降低，路面变得湿滑，需要所有车辆减速。图中显示车辆正在缓慢地通过弯道，且没有可见的障碍物，如卡车或行人。GPT-4V准确地识别了雪天的天气条件和弯曲的道路，正确地推断出车辆需要减速并开始左转。然而，GPT-4V错误地得出结论，认为车辆已经驶出了弯道。这个错误凸显了GPT-4V在恶劣天气条件下准确跟踪车辆轨迹的能力需要改进。

Act as A Driver

本研究通过进行五项不同的驾驶任务测试，评估了GPT-4V的决策能力，以确定其是否与人类驾驶员的决策能力相当。这些任务——包括U型转弯、超车、并线、避障和停车。旨在在复杂场景中全面挑战GPT-4V的自动驾驶能力。这些测试要求GPT-4V在感知、规划和决策方面展现出高级技能。车辆速度和其他相关数据持续提供给GPT-4V，由其负责生成适当的观察和驾驶响应。实验结果表明，GPT-4V具有稳健的决策能力，通常能够有效地执行驾驶员的功能。然而，由于场景的复杂性，它偶尔会遇到问题，如选择错误的路线，这指出了其操作算法中可能存在的改进领域。

1） U-turning

本研究涉及一个车辆执行U型转弯的场景，这一操作需要在低可见度条件下（这在矿区很常见）仔细考虑迎面和尾随的交通状况。如图43所示，在矿区环境中，GPT-4V管理这一操作的能力得到了关键评估。在初始帧中，GPT-4V检测到路标，并建议减速和检查后视镜。在接下来的帧中，识别到右转后，它指示车辆减速、准备执行操作，并注意其他道路使用者。到第三帧时，随着车辆接近转弯点，GPT-4V建议以更高的谨慎性继续前行。在最后一帧中，GPT-4V观察到车辆即将完成U型转弯，并指导在操作后恢复正常驾驶。这一评估展示了GPT-4V在U型转弯过程中健全的理解、推理和决策能力。它特别关注交通动态，并通过遵守交通规则来确保操作的安全性，这证实了GPT-4V有效处理复杂驾驶任务的能力。

2）超车

这里评估了GPT-4V的超车能力，如图44所示。场景涉及我们的车辆在一条未铺砌的道路上行驶，前方有一辆施工车辆，我们打算超车。

在初始帧中，GPT-4V识别出施工车辆，并评估了发起超车操作的安全条件。到了第二帧，观察到施工车辆保持恒定的速度和方向，GPT-4V发出变道指令以开始超车过程。在第三帧中，当我们的车辆与施工车辆平行行驶时，GPT-4V指示加速以完成超车。在最后一帧中，GPT-4V确认我们的车辆已成功超越施工车辆并返回其车道，建议继续正常驾驶。

这个例子展示了GPT-4V强大的超车能力，展示了精确的观察和健全的决策制定。值得注意的是，GPT-4V能够有效地区分缺乏清晰车道标线的非结构化道路上的车道，这一表现水平超过了大多数语义分割算法。

3）路径查找

在本节中评估了GPT-4V在采矿场复杂环境下的路径查找能力，该环境的特点是重型机械、各种施工设备和缺乏明确的导航车道或标识，如图45所示。

在第一帧中，GPT-4V识别出位于场景右侧的黄色挖掘机，并指示车辆减速，跟随轮胎轨迹，并向挖掘机右侧移动。在第二帧中，GPT-4V注意到泥泞的道路和崎岖的地形，暗示出口可能位于右侧。在第三帧中，在检测到阳光斑点后，GPT-4V建议车辆保持低速右转以安全导航。然而，在第四帧中，GPT-4V观察到散落的小物体和向左延伸的轮胎轨迹，并错误地得出结论认为车辆应该左转。尽管GPT-4V没有准确识别出离开采矿场的正确路径，但其表现仍然值得注意。它成功地辨别了大致方向，并建议在缺乏明确路径或标识的区域中以适当的速度进行导航，这展示了它在复杂环境导航中的潜力。

4）停车

在本节中，我们评估了在采矿区域内车辆的停车能力，该区域没有明确划定的停车区，因此需要车辆独立寻找合适的停车空间。如图46所示，在初始帧中，GPT-4V识别到左侧有足够的空间适合停车，并指示车辆向左转，同时激活左转向灯以开始停车操作。在第二帧中，GPT-4V继续引导车辆向左驶向已识别的停车位。到了第三帧，GPT-4V指挥车辆进一步向左移动，为停车过程做准备。在最后一帧中，注意到附近有一辆大型采矿卡车，GPT-4V建议在完成左转时减速，然后停车。这一场景展示了GPT-4V在采矿场复杂环境中有效地寻找并导航至合适的开放区域进行停车的能力，它精准地执行了任务，没有出现重大错误。

5）车道合并

在本节中，我们评估了GPT-4V在图47所示场景中引导车辆汇入主干道的能力，重点关注了通往主干道的交叉路口场景。在第一帧中，观察到一辆采矿卡车、泥泞的道路和轮胎轨迹，GPT-4V指示车辆减速、谨慎前行、留意前方车辆并保持对周围环境的警觉。在第二帧中，GPT-4V错误地评估了车辆的状态，误以为车辆处于静止状态，而实际上车辆正在移动。然后，它指示车辆加速以便汇入主干道。在第三帧中，由于前方出现一座大型土堆阻挡了视线，GPT-4V激活了车辆的喇叭以发出接近信号并帮助绕过障碍物。到了第四帧，GPT-4V确定车辆已成功到达主干道，并建议继续谨慎驾驶。这一场景展示了我们的车辆在汇入主干道之前被指示等待其他车辆通过。尽管在感知车辆运动状态方面出现了一个明显的错误（在整个过程中车辆实际上一直在运动），但GPT-4V对车辆操纵的环境评估和指令大体上是准确的。

一些结论

本研究对GPT-4V模型在矿业环境中自动驾驶的应用进行了全面评估。它专注于模型在场景理解、推理以及执行典型人类驾驶任务方面的能力。GPT-4V在识别和解释一系列环境元素方面表现出色，包括车辆、行人和路标。尽管有这些优势，但在准确识别特定车辆类型和处理动态交互方面遇到了困难。

在涉及紧急和极端条件的场景中，GPT-4V展示了强大的推理能力，有效地应对了强烈光照和有限可见度带来的挑战。然而，该模型在解释车辆运动和路标信息时偶尔会出错。在执行U型转弯、超车、车道合并、路径查找和停车等实际驾驶操作时，GPT-4V在操控和决策方面通常表现良好。然而，它在复杂场景中面临挑战，特别是在准确跟踪车辆轨迹和选择最佳路线方面。

评估指出了需要改进的关键领域。GPT-4V急需提高在车辆识别和计数方面的准确性，特别是在能见度差的情况下。此外，模型必须提高其解释和预测多辆车辆动态交互和运动的能力。虽然它在识别静止物体和静态场景方面表现出色，但其在理解动态场景（如涉及移动机械臂或道路条件变化的场景）方面的能力则不那么可靠。

总结来说，GPT-4V在推动矿业环境中的自动驾驶技术方面有着巨大的潜力，这得益于其管理复杂场景和实施战略驾驶操作的能力。然而，要实现可靠和安全的操作，必须解决在车辆识别、交互解释和动态场景理解方面存在的已识别缺陷。

参考

[1] GPT-4V Explorations: Mining Autonomous Driving.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频