摘要
自动驾驶技术在过去的二十年中取得了显著的研究和开发里程碑。随着自动驾驶汽车(AVs)在环境感知、实时决策以及可靠运行方面的能力不断增强,其部署承诺带来更安全且更环保的交通系统。然而,目前的技术状态下,这些车辆的智能决策过程对人类来说通常是不可理解的。这种不足不仅限制了技术的社会接受度,也成为其法规合规性的障碍。因此,除了做出安全的实时决策外,自动驾驶汽车还必须能够解释其 AI 指导的决策过程,以符合众多司法辖区的法规要求。
我们的研究对基于可解释人工智能(XAI)的自动驾驶技术发展提供了全面的视角。具体而言,我们做出了以下贡献:
- 提供了针对自动驾驶 XAI 方法的全面综述,包括最先进的研究方法和新兴的研究方向。
- 提出了一种端到端自动驾驶的概念框架,包含实现可解释性的关键要素。
- 阐述了面向未来发展的 XAI 方法及其潜力,以提升自动驾驶技术的透明性、可信性和社会接受度。
1 引言
一项由美国国家公路交通安全管理局(NHTSA)进行的调查报告指出,约 94% 的道路事故是由人为错误引起的。这种缺乏规则遵守和不良道路文化的问题促使官员、制造商和立法者致力于改善交通系统。在这一背景下,研究与开发的努力日益增加,目标是通过提升自动驾驶汽车(AVs)的安全性和自动化能力来防止交通事故并创造更好的道路基础设施。据英特尔的一份报告预测,从 2035 年到 2045 年,仅在美国,自动驾驶技术的部署将每年减少 2.5 亿小时的用户通勤时间,并拯救超过 50 万人的生命。
虽然自动驾驶汽车在日常生活中的潜在影响和好处令人期待,但围绕这些车辆的功能安全性存在重大社会担忧。这一问题主要来源于最近涉及自动驾驶汽车的交通事故报道,这些事故主要由于其“黑箱式”决策过程。由于人工智能(AI)方法为实时驾驶行为提供基础,因此消费者、社会以及监管机构都对 AV 的 AI 决策提出了可解释性的需求,期望通过解释建立对这些车辆的信任。
在本综述中,我们全面回顾了关于自动驾驶可解释性研究的现状。通过深入分析,我们首先展示了对 AV 可解释性需求的背景信息。此外,我们通过提供结构化和综合性的文献综述,填补了当前文献的空白,并提出了未来发展的路线图。更具体地说,我们深入探讨以下研究问题:
- 为什么在自动驾驶技术中需要可解释性?
- 当前针对可解释自动驾驶的趋势和新兴人工智能技术是什么?
- 哪些未来的可解释人工智能(XAI)方向最有希望实现值得信赖、负责任、法规合规且被公众接受的自动驾驶?
带着这些问题,我们的论文作出了以下贡献:
- 描述了跨学科的视角和要求,这些视角和要求使自动驾驶可解释性成为必要;
- 提供了针对自动驾驶的最先进的 XAI 研究的文献综述;
- 提出了一个可解释的端到端自动驾驶概念框架;
- 为自动驾驶的 XAI 方法提出了未来研究方向。
本文其余部分包括六个章节。第 2 节提供了背景信息以及推动自动驾驶 XAI 需求的因素。第 3 节通过分析跨学科的视角、不同解释接收者的需求以及解释的构建方法,探讨了自动驾驶可解释性的概念。第 4 节对自动驾驶 XAI 的研究进行了全面综述。受这些研究的当前局限性和趋势启发,第 5 节提出了一个通用设计框架,用于解释自动驾驶,并展示了该框架的关键组成部分。最后,第 6 节概述了下一代 AV 安全性和可解释性所面临的潜在挑战以及发展路线图,第 7 节对全文进行了总结。
2.背景
2.1 自动驾驶概览
自动驾驶汽车,也称为自动驾驶车辆,是装备有先进传感器、摄像头、雷达、激光雷达、GPS和复杂学习算法的智能车辆,它们能够在没有人为干预的情况下导航和操作[11]。为了识别、识别和区分其操作环境中的物体,这些车辆融合了各种传感器的信息,帮助做出实时驾驶决策[12], [13]。现代自动驾驶汽车的历史可以追溯到1988年,当时ALVINN(自动驾驶车辆在神经网络中)是第一辆由神经网络驱动的自动驾驶车辆,它能够使用激光测距仪的摄像机图像产生道路跟随任务的控制命令[14]。目前部署在道路网络上的自动驾驶汽车根据其车载技术和智能能力有不同的自动化水平。SAE国际(以前称为汽车工程师协会)定义了六个自动驾驶水平[16]:0级 - 无自动化(人类驾驶员负责所有关键驾驶任务);1级 - 驾驶辅助(车辆具有自动驾驶支持,如加速/制动或转向,但驾驶员负责所有其他可能的驾驶操作);2级 - 部分自动化(在此级别可用的高级驾驶辅助系统(ADAS)操作,如转向和加速/制动);3级 - 条件自动化(车辆具有更先进的功能,如物体/障碍物检测,并且可以执行大部分驾驶操作);4级 - 高自动化(车辆可以在地理围栏区域内完成所有可能的驾驶操作);5级 - 全自动化(车辆可以在任何可能的场景中执行所有驾驶操作,不需要人为干预)。
在基于人工智能(AI)的学习架构方面,构建自动驾驶系统主要有两种方法:模块化和端到端流水线[5], [17]。模块化流水线由四个主要且相互连接的模块组成,这些模块被归类为感知、定位、规划和控制(图2a)。模块化流水线利用各种传感器套件和算法来处理每个模块。虽然由独立组件组成使得模块化系统更易于解释和调试,但这种架构会将错误传播到下一个组件,因此,整个流水线的错误会变得累积[17], [18], [19]。
与模块化流水线相比,端到端自动驾驶最近作为自动驾驶车辆设计和开发的范式转变而出现。端到端自动驾驶将原始传感器数据作为视觉输入,并为车辆产生控制命令(图2b)[17], [20], [21]。特别是,深度学习和计算机视觉算法的最新突破,以及丰富的传感器设备和增强的安全效益,一直是汽车研究者利用端到端学习方法的主要原因。端到端流水线相较于其对应物的优势在于,它通过将感知、定位、规划和控制统一为一个结合的机器学习(ML)任务,直接产生驾驶动作。此外,通过端到端学习中的共享骨干网络提高了计算效率,并通过这种方式避免了中间层潜在的信息丢失[17], [22]。
2.2 基本问题
目前以深度学习算法为主的AI方法为自动驾驶技术带来了显著改进,包括在感知、目标检测和规划等许多关键组成部分的进步。随着车辆的AI驱动系统的进步,过去十年中,在许多发达的欧洲国家、美国和加拿大,部署到道路网络的自动驾驶汽车数量显著增加[23]。然而,上述涉及此类车辆的道路事故引起了公众的怀疑,许多研究试图强调自动驾驶汽车在设计、开发和部署方面当前的局限性和问题。例如,Fleetwood[24]研究了使用自动驾驶引起的公共卫生和伦理问题。他们的研究深入分析了健康问题,特别是与电车问题的例子[25]和[26](在结冰的路面上撞到行人或停放的汽车;驾驶并撞到五个人或改变方向盘方向撞到一个人等)。一些研究直接关注了道德碰撞的概念(即,如果碰撞是不可避免的,如何碰撞?)和上述电车问题。例如,道德机器实验[27],一个众所周知且备受争议的实验,调查了一般社区对应用电车问题(不可避免的事故场景与二元结果)的偏好,并指出“这些偏好可以为机器伦理的全球、社会可接受原则的发展做出贡献。”然而,对这一问题的进一步讨论谴责了这一观点,并提请注意缺乏安全原则[28],这迫使人们更深入地考虑这些困境[29]。Burton等人[30]确定了自动驾驶系统当前发展中的三个开放问题。首先是语义鸿沟,当系统没有向制造商和设计者提供详尽的规范时就会出现。另一个问题是责任鸿沟,当事故发生时,自动驾驶系统或人类是事故原因的责任问题仍未解决。最后,谁负责在事故中对受伤者进行赔偿,这引发了第三个问题:责任鸿沟。该研究还表明,这些问题的核心与领域复杂性、系统复杂性以及将更多的决策功能从人类转移到自动驾驶系统有关。进一步的研究包括自动驾驶技术对城市地区公共卫生的影响[31]和自动驾驶汽车的伦理困境[32]。总体而言,这些研究的关键发现需要理解这些问题的原因,并本质上给予利益相关者提出“为什么”问题的权利。
2.3 法规和标准
由AI系统引起的问题和日益增长的担忧促使需要审查这项技术的监管。因此,公共机构启动了监管框架的发展,以监控数据驱动系统在国家和国际层面的活动。这些法规的重点主要是保护利益相关者的权利,并确保他们能够控制他们的数据。例如,欧盟(EU)的通用数据保护条例(GDPR)启动了促进用户“解释权”原则的指导方针,于2016年颁布,并于2018年5月生效[33]。此外,欧盟还特别定义了关于可信AI的指导方针,有七个基本要求,即1)人类代理,2)技术稳健性和安全性,3)隐私和数据治理,4)透明度,5)可问责性,6)多样性,非歧视和公平,7)社会和环境福祉;这些原则都应用于基于AI的产品研究和开发[34]。最近,各种组织提出了关于自动驾驶汽车的监管指导方针,以监控它们是否符合法律的执行。NACTO(国家城市交通官员协会)关于自动驾驶汽车的声明提出了九项原则,以塑造未来一代自动驾驶汽车的监管政策[35]。美国交通部的国家公路交通安全管理局(NHTSA)对自动驾驶汽车政策有特定的联邦指导方针,以提高交通安全性[36]。2022年3月,NHTSA宣布,在美国,汽车制造商不再需要为完全自动驾驶汽车配备手动控制元件,如方向盘和制动踏板[37]。加拿大[38]、德国[39]、英国[40]、澳大利亚[41]和日本[42]也最近推出了关于自动驾驶技术的法规。虽然这些法规已经制定,以确保立法规范和用户需求得到满足,但一些标准提供了实现高水平安全、质量保证、效率和环保交通系统的规范。国际标准化组织(ISO)采纳了几项标准,以定义自动驾驶的相关事宜。例如,ISO 21448[43],它规定了在“预期功能安全”下保持操作安全的情况意识标准,以及ISO 26262[44]标准,为生产乘用车的电气和电子系统的安全性定义,称为“道路车辆 - 功能安全性”。
3. 自动驾驶中的解释
3.1自动驾驶中解释的必要性
自动驾驶中解释的需求来自于基本问题、既定的法规和标准,以及社会的跨学科观点和意见。从最高层面来看,自动驾驶车辆(AVs)需要解释的原因可以总结为四个视角:心理学视角、社会技术视角、哲学视角和法律视角。总体而言,我们可以得出结论,自动驾驶系统的可解释性是从多学科角度的期望和要求。
3.2 自动驾驶中解释的潜在好处
考虑到这些多维度视角,可解释的自动驾驶可以为利益相关者带来以下好处:
- 以人为中心的设计:获取最终用户对半自动或全自动驾驶车辆的设计和开发的输入、意见和预期,可以帮助这项技术被广泛社区接受。
- 可信度:算法保证可以建立人与自动驾驶系统之间的关系信任。
- 可追溯性:可解释的智能驾驶系统可以帮助法医分析师和系统审计师通过行程后分析,了解自动驾驶车辆在整个旅程中的决策过程。
- 透明度和可问责性:解释可以帮助实现可问责性,这可以解决预见的事故调查中潜在的责任和责任差距,如Burton等人[30]所描述的。例如,梅赛德斯-奔驰最近采取了一项前瞻性措施,宣布公司将对任何涉及其自动驾驶系统的事故承担法律责任[54]。梅赛德斯关于法律责任的声明是自动驾驶技术可问责性的重要里程碑。
3.3 自动驾驶中的解释接收者
解释的细节、类型和传递方式根据用户的身份、自动驾驶技术背景知识和他们的不同功能和认知能力而有所不同。例如,对自动驾驶操作知之甚少的用户可能对相关决策/结果的简单解释就感到满意。然而,自动驾驶系统工程师将需要更多信息性的解释,以理解汽车的当前功能,并在需要时适当地“调试”现有的驾驶系统。因此,使用领域知识和解释对象的专业知识是提供相关、足够信息性和可理解的解释的关键。
根据[46]和[85]的目标受众定义,我们可以区分自动驾驶中的四组利益相关者,即第1组 - 道路使用者,第2组 - AV开发人员,第3组 - 监管机构和保险公司,第4组 - 汽车公司的执行管理层。图3提供了这些利益相关者的身份和他们在相关分类中的位置。
3.4自动驾驶中的解释传递方法
由于解释对象根据他们的领域知识和需求进行分类,因此解释及其设计和评估技术也根据上下文和类别的解释对象的知识而有所不同。实际上,解释构建是当前XAI研究中的一个主要挑战。Zablocki等人[86]定义了XAI基于自动驾驶中的四个“W”问题:1) 谁需要解释?2) 为什么需要解释?3) 可以生成什么样的解释?以及4) 应该何时传递解释?一般来说,基于AI的解释可以根据其衍生类别和分类来区分。一些早期的实际研究已经将解释应用于自动化协同过滤系统[87]和知识密集型基于案例的推理[88]。另一种实证方法尝试基于一些可理解性类型[89]生成解释,并使用“为什么”、“为什么不”、“如果”和“如何”类型的解释进行因果过滤。此外,Liao等人[90]采访了在AI不同领域工作的20名用户界面和设计从业者,以了解用户的解释需求。通过这样做,他们试图找到受访者产品中的差距,并开发了一个问题库:作者将用户的需求表示为问题,以便用户可能会询问由AI系统产生的结果。总的来说,基于利益相关者需求的解释设计可以被视为车辆技术的一个有前景的方法。另一种流行的产生解释的方法是基于使用正式理论中的心理工具,根据[91]的文献综述。根据上下文和收件人,两种解释生成方法都证实了它们的有用性。这些解释生成方法可以在自动驾驶中找到它们的应用对齐;由于自动驾驶涉及社会背景不同的人,相关的XAI设计需要对上下文问题进行内在调整。除了信息内容之外,解释的有效沟通也是人机团队合作的一个关键因素。一般来说,向最终用户传达解释是通过用户界面(UX)或人机界面(HMI)实现的[92]。例如,HMI可能是一个界面,用于提醒人类驾驶员在紧急情况下接管车辆控制权。其他潜在的例子包括在监视器上显示的文本消息、声音、光信号和触觉技术,这些技术解释了车辆的意图,并为参与循环的人带来情境意识,如Schneider等人的工作[93]所示。
4. 自动驾驶的可解释人工智能:一项调查
4.1自动驾驶中XAI的先前调查
存在对自动驾驶中XAI的综述,这些综述从不同角度提供了宝贵的见解。这些研究揭示了从通用视角到算法视角的各种方法。在这个意义上,第一个值得注意的关于自动驾驶中XAI的综述是Omeiza等人的工作[46]。他们研究了自动驾驶中解释的需求/作用,并专注于设计和开发可解释自动驾驶系统所需的法律要求、标准和消费者期望。这为他们提出了一个模块化自动驾驶的概念XAI框架。在进一步的工作中,Zablocki等人[86]提供了一个详细的端到端基于视觉的自动驾驶系统的概述,并从机器学习的角度描述了自动驾驶的可解释性障碍。最后,在最近的工作Kuznetsov等人[94]通过关注这些技术如何提高安全性和用户信任,对模块化和端到端自动驾驶的XAI技术进行了系统综述。在这方面,他们提出了一个集成用户界面、安全性和可解释性的模块化自动驾驶的SafeX框架。我们的研究作为补充,通过以下三个基本维度扩展了上述工作的范围。首先,所有三项先前的调查专门关注解释的形式和内容;然而,解释的时间粒度尚未被研究。由于自动驾驶车辆是实时决策系统,因此了解如何从时间角度交付解释至关重要。此外,注意力变换器、大型语言模型和视觉-语言模型现在处于应用于自动驾驶技术的AI的最前沿,这些方法在上述调查中尚未被探索。最后,从算法/方法论的角度对应用于自动驾驶的XAI方法进行分类也是这些研究中缺失的一个值得注意的细节。因此,我们的论文通过(1)分析解释的时间敏感性,(2)提出XAI方法的方法论分类,以及(3)提供对未来一代自动驾驶车辆的新兴XAI范式的视角,扩展了上述综述。
4.2 我们论文的结构
我们的论文提供了对自动驾驶中XAI方法的全面概述。特别是,我们根据视觉、强化学习、模仿学习、特征重要性、逻辑、用户研究以及最近的范式转变——大型语言和视觉-语言基础的解释,对方法进行了分类。通过采用最新的工业趋势、新兴的AI技术和通用的监管合规原则,我们进一步提出了一个可解释的端到端自动驾驶的概念框架,并描述了其基本元素。最后,我们通过描述现有技术中缺失的部分并提出潜在的解决方案,以实现透明度和社会接受度,提出了一系列有前景的XAI方法。
4.3 视觉解释
由于深度神经网络(通常以CNN的形式增强)为智能车辆的视觉能力提供动力,理解CNN如何捕获导致车辆特定行为的实时图像片段是实现视觉解释的关键概念。在这方面,可解释的CNN架构已经进行了调整以生成视觉解释。Zeiler和Fergus[95]使用反卷积层来理解CNN的内部表示。Hendricks等人[96]提出了一个专注于对象的区分属性以解释预测标签的模型。Zhou等人的[97]的显著性图架构,类激活图(CAM),突出了预测图像标签的图像的区分部分。此外,Selvaraju等人[98]提出了CAM的增强版本,称为Grad-CAM,它突出了CNN预测相对于其输入的导数。基于反向传播的方法的其他例子包括引导反向传播[99]、逐层相关性传播[100], [101]和DeepLift[102]。Babiker和Goebel[103], [104]也表明,基于启发式的深度视觉解释(DVE)为CNN的预测提供了合理的解释。使用视觉技术解释自动驾驶决策主要是由这些研究驱动的。特别是,Bojarski等人的工作[55]是自动驾驶的第一个可解释视觉方法,其中作者提出了一种名为VisualBackProp的可视化方法,展示了哪些输入像素集对CNN做出的预测有所贡献。他们使用Udacity自动驾驶汽车数据集在端到端自动驾驶任务上进行的实验表明,所提出的技术是调试CNN预测的有用工具。Hofmarcher等人[58]提出了一个作为像素级分类实现的语义分割模型,该模型解释了环境的实时感知。他们在Cityscapes[105]上评估了他们的框架的性能,Cityscapes是一个理解街道场景的基准数据集。该框架以59.8的每类平均交并比(IoU)和84.3的每类别平均IoU超过了其他流行的分割模型,如ENet和SegNet。模型的可解释性是意外行为的一个加分项,允许调试驾驶系统并理解自动驾驶车辆的时间决策的理由。Kim和Canny[56]在显著性过滤之上使用了一个因果注意模型,表明哪些输入区域实际上影响了转向控制。他们的实验在驾驶数据集-Comma.ai[106]、Udacity[107]和现代卓越集成车辆安全系统和控制中心(HCE)上进行:这个模型运行了近16小时,以端到端的方式从图像到转向角度训练CNN,并应用因果过滤以找出哪些图像部分对预测有高影响。通过这种方法,所学习的框架为车辆的行动提供了可解释的可视化。作为这个模型的增强,Kim等人[57]在他们的进一步研究中提供了文本解释。他们使用基于注意力的视频到文本机制为自动驾驶车辆的决定性行动产生“可理解的解释”,并引入了一个名为Berkeley Deep Drive-X(eXplanation)(BDD-X)的新数据集,该数据集包含文本解释和描述的注释。Zeng等人的[59]架构通过遵循交通规则(包括与道路使用者的互动、让路和交通信号)来学习安全驾驶自动驾驶车辆。他们使用原始激光雷达数据和高清地图生成可解释的表示,作为对象的3D检测、预期的未来轨迹和成本图可视化。3D检测实例提供了描述性信息,使模型理解操作环境。作为L1和L2距离测量的运动预测解释了错误行动是否是由于速度计算错误或方向计算错误。最后,成本图可视化通过自上而下的视图描述了交通场景。该架构在由6,500个交通场景组成的大型真实驾驶数据集上进行了评估,该数据集在北美的几个城市收集,包含1.4百万帧,并测量了交通规则违规、与人类轨迹的接近度和碰撞。作者还进行了消融研究,并展示了不同的覆盖、输入范围和训练损失对端到端学习的影响。Xu等人[61]提出了一个带有解释的对象诱导动作预测自动驾驶汽车的框架。作者引入了一个新的数据集BDD-OIA,作为BDD100K数据集[108]的扩展;这个扩展用21个解释模板注释了一组4个动作。他们的多任务公式用于预测动作,也提高了动作选择的准确性。CNN架构进一步统一了对动作诱导对象和场景上下文的全局推理。在引入的BDD-OIA数据集上进行的研究表明,该架构的可解释性也增强了动作诱导对象识别,从而实现了更好的自动驾驶。在两个相应的研究中,Kim等人[62], [65]提出了一种利用人类建议学习车辆控制的方法(图5)。通过感知操作环境,系统能够对决定性行动(例如,“因为道路湿滑而减速”)生成可理解的解释。所提出的架构结合了语义分割和注意力机制,丰富了知识表示。在BDD-X数据集上进行的实验表明,人类建议与语义分割和热图的结合提高了自动驾驶车辆预测行动的安全性和可解释性。作为一个更近期的视觉到文本方法,Atakishiyev等人[79]利用视觉问题回答(VQA)机制来解释自动驾驶行动。他们训练了一个RL代理,并生成了显示自动驾驶车辆从其视野中的运动的驾驶数据。他们进一步将这个视频转换为图像序列,手动用问题-答案(QA)对注释图像,并分别用LSTM[109]和预训练的VGG-19[110]编码问题和图像。在五个动作类别上的实验结果表明,VQA是一种简单、有效和人类可解释的方法,用于证明自动驾驶行动。利用前置图像进行可解释决策的研究也得到了随后研究的进一步探索[8], [19], [80]。虽然上述研究侧重于模型已经获得的预测的视觉解释,但也有一些最近的研究关注于反事实解释。在自动驾驶的背景下,反事实分析可以被描述为这样一个示例问题:“鉴于驾驶场景,如何修改它以便车辆继续驾驶而不是停止?”换句话说,给定输入,反事实分析旨在找出导致模型做出特定预测的输入中的区别特征,通过设想修改这些特征会导致模型做出不同的预测(例如,从“停止”命令变为“去”命令)。因此,在这种情况下,现有模型获得的预测和想象模型的预测成为对比。作为反事实干预的应用,Li等人[63]提出了一种找出导致特定驾驶行为的风险对象的方法。他们的方法,形式化为一个功能因果模型(FCM),表明从场景中随机消除一些对象会改变驾驶决策为对比预测,例如从“停止”变为“去”命令。在进一步的工作中,Jacob等人[72]引入了STEEX模型,该模型使用预训练的生成模型通过修改场景的风格产生反事实理由,同时保留驾驶场景的结构。最后,作为STEEX的进一步增强,Zemni等人[75]提出了一种称为OCTET的方法,该方法在不依赖于驾驶场景的结构布局的情况下生成对象感知的反事实解释,因为反向传播可以优化提供实例的空间位置。总的来说,我们观察到对自动驾驶系统的可视化解释有显著的关注,因为这种解释提供了一个机会,以更好地理解自动驾驶车辆如何准确地感知操作环境。
4.4强化学习和模仿学习基础的解释
解释如何将感知到的环境状态映射到行动,也最近在自动驾驶社区中得到了关注。在这方面,可解释强化学习(XRL)领域是XAI中一个相对较新且新兴的研究领域[111], [112], [113]。像基于视觉的解释一样,XRL技术也旨在通过内在可解释的设计或事后解释,为车辆选择的行动提供某种形式的辩解。这方面的早期工作之一是语义预测控制(SPC)框架[114],作者提出了一种数据高效的策略学习方法,预测未来的语义分割,并提供学习策略的视觉解释。框架将RGB的多尺度中间特征与平铺的行动连接起来。然后,将连接的模块输入到多尺度预测模型中,预测未来特征。最后,在管道的最后一部分,信息预测模块输入潜在特征表示,并输出驾驶信号以及场景的语义分割。Chen等人[115]介绍了一个用RL学习的序列潜在环境模型,并基于概率图模型的方法解释自动驾驶车辆的行动,通过鸟瞰图遮罩。他们使用车载摄像头和激光雷达图像作为输入在CARLA模拟器[116]中。为了解释行动和学习策略的可解释性,他们生成了一个鸟瞰图遮罩(即图6)。他们的模型超过了使用的基线模型——DQN、DDPG、TD3和SAC。同样,Wang等人[120]提出了一个可解释的端到端基于视觉的运动规划(IVMP)来解释自动驾驶车辆的潜在行动。他们使用鸟瞰空间的语义图来规划自动驾驶车辆的运动轨迹。此外,IVMP方法使用了一个光流蒸馏网络,可以提高网络的实时性能。在nuScenes数据集[134]上进行的实验显示了提案在语义图分割和模仿人类驾驶员方面的优越性。在另一个概率决策模型中,Wang等人[121]将车道合并任务视为一个动态过程,并将内部状态集成到联合隐马尔可夫模型(HMM)和高斯混合回归(GMM)中。在INTERACTION数据集[135]上进行的实验证明了所提出技术的效率,并表明高速公路入口的合并可以通过三个可解释的内部状态来描述,就车辆合并时的绝对速度而言。Rjoub等人[122]展示了结合XAI的联合深度强化学习可以导致可信的自动驾驶。他们使用联合学习方法进行决策,并利用边缘计算,使不同的设备能够以协作的方式训练机器学习模型。模型首先在参数服务器上开发,然后定期广播到其他设备。然后,全局机器学习方法从这些设备接收更新,直到模型在驾驶任务上表现足够好。Yang等人[130]也展示了通过奖励一致性实现自动驾驶的内在可解释RL代理,目的是解决奖励-行动映射中的梯度断开问题。最后,在通过交互上下文进行探索的背景下,一些研究采用了各种形式的模仿学习(IL)技术,以实现可解释的自动驾驶。Cultrera等人[118]提出了条件模仿学习与端到端视觉注意模型,该模型识别对预测影响较大的图像部分。他们在CARLA模拟器上测试了他们的架构,在四个任务——直行、左转、右转和跟随车道上。他们的消融研究侧重于框类型重要性和固定网格分析,以获得图像上的关注图,表明集成的模仿学习和注意模型使车辆能够实时安全驾驶并执行相关操作。利用视觉解释代理行动的Teng等人[124]提出了一个层次化可解释模仿学习(HIIL)技术,该技术将鸟瞰图(BEV)遮罩与转向角统一起来,在复杂情况下执行行动,作为一个端到端自动驾驶管道。他们将他们的方法构建为一个两阶段任务:在第一阶段,使用预训练的BEV模型解释驾驶环境。然后,模仿学习采用第一阶段的BEV遮罩的潜在特征,并将其与通过纯追踪算法获得的转向角结合起来。在CARLA模拟器中进行的实验表明,所提出的方法增强了在各种情况下驾驶的可解释性和鲁棒性。此外,Renz等人[123]介绍了PlanT,一个严格的基于模仿学习的IL方法,使用变换器进行规划。PlanT能够通过识别其驾驶段中最重要的对象来解释其行动决策,并在CARLA的Longest6基准测试中比最先进的工作高出10分(见[143]以获得视觉演示)。在这种情况下的最新工作中,Liu等人[132]展示了结合信号时序逻辑和生成性IL也是自动驾驶可解释策略的有效方法。总的来说,尽管构建自动驾驶的内在可解释RL或IL代理是一个具有挑战性的任务,但采用外部方法,如逻辑和视觉,可以帮助实现代理行动的可解释性。
4.5 基于特征重要性的解释
作为本质上可解释且更容易理解模型预测的特征重要性分数,特别是基于决策树的解释和SHAP值[144],也在自动驾驶中进行了研究(表3)。决策树已被证明可以语义地描述CNN架构所做的每个预测的理由[145]。Omeiza等人[136]使用决策树作为基于树的表示,通过将观察结果映射到交通规则中的行动,生成不同类型的场景解释。他们在各种驾驶场景中使用人类评估,并为驾驶情况生成“为什么”、“为什么不”、“如果”和“什么”解释,并经验性地证明该方法是有效的,以实现自动化车辆的可理解性和可问责性目标。Brewitt等人[137]引入了具有可解释树的目标识别(GRIT),一个框架,使用从自动驾驶车辆的轨迹数据训练的决策树。该框架在固定帧场景中进行了测试,并使用可满足性模理论(SMT)求解器[146]经验性地验证了使用目标识别。Cui等人[138]使用随机森林来实现自动驾驶车辆跟车任务的可解释性目的。他们对状态-行动对应用随机森林,实验结果表明该方法有效地解释了指定的跟车任务的行为。在最近的研究中,随机森林也被证明可以检测车辆自组织网络(VANET)中的违规车辆[70]。最后,特征重要性分数也被用于各种自动驾驶水平的车辆定位[139], [140]和预测驾驶员接管时间[141]。因此,与传统的深度神经网络架构相比,决策树在计算上更加透明,可以以较少的计算量解释各种自动驾驶任务的行为。
4.6 基于逻辑的解释
虽然部署的自动驾驶控制模型的可解释性一直是研究的主要方向,但也尝试使用逻辑推理来验证自动驾驶车辆的安全性。在这方面,Corso和Kochenderfer[148]提出了一种技术,用于识别自动驾驶车辆的可解释故障。他们使用信号时序逻辑表达式来描述自动驾驶车辆在不受保护的左转弯和行人过街场景中的故障案例。为此,作者使用遗传编程来优化信号时序逻辑表达式,这些表达式获得了导致车辆在决定性行动中失败的干扰轨迹。实验结果表明,所提出的方法在解释车辆的安全验证方面是有效的。Suchan等人[147]开发了一种基于答案集编程的基于 Abduction 的推理框架,用于在线感知和控制任务的在线感知制作。本质上,该框架以在线方式集成了知识表示和计算机视觉,以解释交通场景的动态,特别是遮挡场景。作者通过在KITTI MOD[151]数据集和MOT基准[152]上收集的实证研究,展示了他们方法的可解释性和常识价值。另一个利用答案集编程概念的实验研究由Kothawade等人[150]进行:他们介绍了一个结合常识推理和答案集编程的系统AUTO-DISCERN,以自动化自动驾驶车辆的可解释决策制定。他们测试了他们的规则,并展示了AUTO-DISCERN在现实世界场景中的可信度,例如从KITTI数据集中的车道变更和右转操作。表4总结了自动驾驶的基于逻辑的解释。
4.7 基于用户研究的解释
一些调查涉及用户案例研究,以了解自动驾驶任务中有效的解释生成策略。用户研究的关键思想是,在指定的驾驶任务中获得人们的输入可以帮助提高自动驾驶中解释的适当性和质量。Wiegand等人[153]进行了一项用户研究,以识别用户的心理模型,以确定解释界面的有效实际实施。这里的主要研究问题是理解需要在车辆中可视化哪些组件,以便用户能够理解自动驾驶车辆的决策。研究表明,将专家心理模型与用户心理模型结合起来作为目标心理模型可以增强驾驶员的情况意识。此外,Wiegand等人[154]研究了需要解释的情况和这些情况的相关方法。他们发现了十七个自动驾驶车辆行为异常的场景。二十六名参与者被选中在CarMaker驾驶模拟器中验证这些情况,以提供对驾驶员对这些意外行为的需求的见解。作为用户研究的结果,作者确定了六个主要关注点,突出了驾驶员对这些意外行为的主要关注点,包括情感和评估、解释和理由、自动驾驶车辆的能力、交互、驾驶预测和解释请求的时间。Wang等人[66]提出了一种方法,使人类驾驶员能够通过有目的的目光向智能驾驶系统提供场景预测。他们开发了一个图形用户界面,以了解人类驾驶员对智能车辆预测和控制的影响。模拟器被用来测试和验证三个驾驶情况,其中人类驾驶员的输入可以提高自动驾驶的安全性。除了这些工作,Schneider等人也涉及人类参与者在他们的实证研究中,以了解解释对公众接受自动驾驶的影响[93], [155]。他们探索了提供解释的用户体验(UX)在自动驾驶中的作用,以不同的方法(如文本、视觉和照明技术)向最终用户提供与驾驶相关的解释,并得出结论,提供上下文感知的解释可以增加用户对这项技术的信任。他们随后的研究也证实,驾驶解释可以帮助减轻自动驾驶失败对用户的负面影响[156]。最后,Kim等人的用户研究[157]证实,人类不需要连续不断地解释,并且在关键驾驶条件下呈现解释是首选,以享受与自动驾驶车辆的旅行并防止信息过载。表5总结了自动驾驶的基于用户研究的解释。
4.8 基于大型语言模型和视觉-语言模型的解释
最后,虽然初步研究和随后的工作主要集中在解释自动驾驶的组合各种AI技术上,但大型语言模型(LLMs)和视觉-语言模型(VLMs)最近作为解释AV决策和描述交通场景的新范式出现。在GPT[159]和BERT[160]等基础模型的基础上,已经取得了显著的进展,建立了领域不可知和领域特定的LLMs(例如,GPT-3[161]、GPT-4[162]、LLAMA[163]、LLAMA2[164]、Vicuna[165]、Alpaca[166]、Claude[167])和VLMs(例如,Flamingo[168]、LLaVA[169]、PaLM-E[170]、Video-LLaVA[171]、Video-LLaMA[172]、Gemini[173]、Claude 3[174])。在这个意义上,已经做出了巨大的努力,建立了基于这些基础模型的语言和视觉-语言模型,用于解释自动驾驶。总的来说,根据最近的趋势,利用这些大型模型来解释自动驾驶的可解释性,我们观察到以下方向:
1) 在行程中提供实时自然语言解释。在这方面有前景的工作是Wayve的LINGO-1[175]和LINGO-2[176]架构。LINGO是一个视觉-语言-行动(VLAM)模型,它为端到端自动驾驶提供实时自然语言解释,描述车辆选择的行动。经过多样化的多模态(视觉和语言)数据集训练,LINGO可以描述行动决策和诱导这些行动的原因。LINGO架构的优势在于其解释简洁、信息丰富,并反映驾驶环境的时间变化。Wayve团队还在模拟环境中实现了自动驾驶的实时语言解释[177]。
2) 视频问题回答作为推理技术。现代AV的一个重要特征是考虑人类因素在这项技术的设计和开发中,并具有有效的人机对齐,以实现可信的自动驾驶。在这个意义上,用户与AV之间在旅途中进行某种形式的交互至关重要。基于这个概念,一些最近的工作将人与板上AV之间的会话用户界面视为视频问题回答(VideoQA)任务[178], [179], [180]。询问有关自动驾驶系统行为的问题是我们直觉的一部分,而在自动驾驶的背景下,回答与交通相关的情况和自动驾驶车辆行动相关的问题可以帮助用户舒适可靠地旅行。LLMs和VLMs的其他实际应用包括可解释的运动规划[181]、基于思维链的控制和决策推理[182], [183]、用控制信号证明行动[184]、通过视觉推理和线索预测其他交通参与者的意图[185],以及理解基于视频变换器的解释对自动驾驶安全性的作用[186](见表6了解更多关于LLM和VLM基础解释)。总的来说,作为新兴的AI技术,LLMs和VLMs在解释自动驾驶方面取得了巨大的好处,如上所述。然而,也值得一提,仍然有改进这些模型的空间,因为虚构生成的解释(例如,幻觉)可能对自动驾驶行动和人类生命有严重的安全影响和高风险后果。我们在第VI节中描述了这样的警告和潜在解决方案,作为未来的工作。所有这些研究的高层次概述表明,驾驶解释通常是多模态的、上下文依赖的和任务特定的,为AVs的行动决策提供理由。此外,由于强大的深度学习方法和整体安全效益的结合,端到端学习已经成为高度自动化决策的越来越受欢迎的方法。基于上述部分中的见解,我们可以定义可解释自动驾驶如下:可解释自动驾驶是一种自动驾驶方法,由一系列AI技术提供动力,1) 确保车辆实时决策的可接受安全水平,2) 在关键交通场景中及时提供行动决策的解释信息以实现透明度,3) 遵守法律实体和监管机构建立的所有交通规则。在当前工业趋势下,我们提出了一个概念性的XAI框架,用于端到端自动驾驶,并展示了实现下一代符合监管的AVs的必要组件、过程步骤和关键挑战。
5.一个XAI框架:集成端到端控制、安全性和解释
我们提出了一个通用框架,在该框架中,开发XAI、端到端学习和安全组件的方法被结合起来,以通知监管原则的过程。这些组件中的每一个都有具体的作用。在我们最近的研究[191]中,我们已经简要描述了端到端学习对AVs的作用。我们扩展了那项工作的范围,并描述了端到端自动驾驶的基本元素,以及在这样的设置中解释的作用和潜在挑战。我们如下描述这些单独的组件:
1. 端到端控制组件:给定所有可能的环境实例,
E
=
{
e
1
,
e
2
,
…
,
e
n
}
E = \{e_1, e_2, \ldots, e_n\}
E={e1,e2,…,en}
和车辆可以采取的一系列行动
A
=
{
a
1
,
a
2
,
…
,
a
n
}
A = \{a_1, a_2, \ldots, a_n\}
A={a1,a2,…,an}
控制系统的整体作用是将感知到的环境映射到相应的行动:
C
:
E
→
A
C: E \rightarrow A
C:E→A。
这种映射旨在确保控制器将环境映射到自动驾驶系统的相关行动。如果控制系统( C )是一个总函数,将每个环境实例
e
∈
E
e \in E
e∈E
映射到相关行动
a
∈
A
a \in A
a∈A
那么控制系统( C )就是一个端到端控制系统(eeC)。端到端自动驾驶中最普遍的学习范式是RL和IL[17]。此外,可微学习也最近作为端到端驾驶架构出现:虽然规划组件被优先考虑,但这个学习管道优化了整个驾驶架构的多个模块(例如,[18])。总的来说,如第II节所述,端到端学习管道使用一个单一的深度神经网络作为统一任务,将世界传感器模型映射到AVs的实时控制命令。
2. 安全-监管合规组件:安全-监管合规组件( srC )的作用是代表监管机构的功能,其主要作用之一是验证任何组合的eeC与AV行动( A )的安全性:
s
r
C
=
f
(
e
e
C
,
A
)
srC = f(eeC, A)
srC=f(eeC,A)
这个要求可能像对单个车辆安全的检查一样实用(例如,验证单个车辆的基本安全功能以重新许可)。话虽如此,这个概念应该被视为对eeC组件从车辆制造商到认证其在国际和/或国家交通指南下的公共安全进行全面合规测试。道路车辆可接受功能安全的核心原则由ISO 26262标准[44]定义。根据这个标准,应该有基于证据的安全认证开发:车辆应该能够在其操作环境中满足既定的功能安全要求。ISO 26262标准的第6部分[192]专门用于汽车应用中的最终产品开发。这个指南包括汽车应用中软件系统的设计与开发、测试和验证。
根据这些标准,确认监管合规性似乎有两种基本方法,我们将其标记为通过“模拟”确认合规性和通过“验证”确认合规性。这些步骤与我们对XAI在确认监管合规性中的作用的观察一致。在通过模拟建立监管合规性的过程中,思想是选择一组自动驾驶行动进行模拟,然后评估以确定是否令人满意。这种方法可能是最熟悉的,因为它自然而然地来自于工程发展轨迹,其中模拟器的准确性决定了合规性的质量(例如,[193])。建立的合规性的信心是模拟器的准确性和覆盖范围的函数。然而,这种合规过程可能非常昂贵,并且容易受到安全漏洞的影响,特别是当在模拟的属性和范围上达成共识困难时。因此,一般来说,模拟部分可以被视为AVs的“驾驶学校”:设计和开发的学习软件系统应该在这个阶段进行严格的测试,然后这样的自动驾驶系统,作为一个整体架构,才被部署到实际环境中的车辆和真实道路上。另一种选择,验证,与我们自己的框架一致,并在证明软件正确性的学科中建立了重要的基础组件,有着悠久的历史(例如,[194])。一般的想法是,基于离线模拟的自动驾驶在真实AV上通过实际的传感器套件和学习软件堆栈通过监管合规性的安全检查进行验证。除了安全保证外,AVs的另一个关键要求是其能够防御潜在的网络攻击的能力。ISO/SAE 21434标准为道路车辆的网络安全风险管理定义了指南,AVs还必须符合这些要求[195]。随着AVs越来越多地依赖其自动化能力,智能驾驶系统的ML软件和内置接口能够检测和防御广泛的潜在网络攻击至关重要,例如电子控制单元(ECU)攻击、车内网络攻击和汽车密钥相关攻击[196], [197], [198]。我们可以预期,srC流程的潜在演变最终将依赖于对所有eeC系统进行监管合规性测试的自动化。srC系统的复杂性在于法律框架中建立的测试方法的范围,这些方法是确认安全阈值的基础。例如,监管机构可能要求任何特定eeC至少在N个安全测试中表现出90%的监管合规性能。然而,作为一般要求,这种性能必须符合ISO 26262和ISO/SAE 21434标准,以确保自动驾驶车辆的决策过程与其基础ML软件一致:安全功能必须通过关键检查点,自动驾驶车辆必须能够防御可预见的网络攻击。
3. 解释组件:框架中的这个组成部分提供了对自动驾驶实时行动决策的可理解洞察,符合eeC和srC。解释组件必须证明自动驾驶车辆如何选择行动,并能够在旅途中和通过行程后分析将这些信息传达给相关用户。如所审查的研究中所分析的,解释可以以视觉、文本、特征重要性格式或混合、多模态方式描述,并根据需要通过光、音频、触觉等传递。
解释的时间粒度和传递
虽然XAI研究的主要焦点是解释的形式和内容,但值得注意的是,另一个重要考虑因素——解释的时间粒度——在现有技术中尚未得到充分研究。一般来说,AVs解释的时间粒度可以从三个方面进行分析:1) 应该在行动选择之前还是行动执行后提供解释?2) 安全过渡从自动模式到人工接管的适当提前时间是多少?3) 应该连续提供解释还是仅在需要时提供?我们分别分析这些细微差别如下:
1) 解释的时机机制:及时提供解释可以帮助人类驾驶员/乘客对紧急情况做出适当反应,例如接管请求,以防止附近潜在的危险。根据Koo等人的研究[199],最好在驾驶事件即将发生之前传达解释。Haspiel等人的用户研究[200]进一步验证了这一概念,人类判断表明,解释应该在行动决定之前而不是行动执行后提供。这种判断是有意义的,因为及时沟通解释可以为车上人员带来情境意识,并使他们能够监控自动驾驶车辆随后的行动。如果即将执行的行动是危险的,人类驾驶员或乘客可以手动介入这种情况,以防止潜在的危险。
2) 提前时间对安全过渡的影响:另一个重要标准是确定需要多少时间来提醒人类行为者接管请求。在测量4秒与7秒作为接管警报提前时间的影响的用户研究中,Huang和Pitts[201]表明,较短的提前时间可以导致更快地过渡到人工控制模式,但也缺乏接管的质量,因为缺乏时间可能会给处于这种情况中的人类行为者带来压力。Mok等人[202]在2秒、5秒和8秒过渡时间的情况下也得出了类似的结论。Wan和Xu[203]进一步验证了不足的提前时间,例如3秒,会导致受损的接管性能,而当为接管请求分配足够的时间,例如超过10秒时,驾驶员表现更好。总的来说,可以得出结论,解释紧急情况给人类并过渡控制的提前时间应该在几秒钟内,而对于非关键情况,例如行程后分析,可能需要的时间可以更长。
**3) 始终提供还是仅在必要时提供解释?**还重要的是考虑人类需要享受与AVs的旅行,并且只在必要时从车辆获取信息。这也适用于向最终用户提供解释信息。当乘客/人类驾驶员在旅途中被大量信息提供时,可能会导致他们的心理负担[154]。因此,通常更倾向于在交通条件关键且人们需要被提醒时,向人类描述驾驶决策和交通场景。同样值得注意的是,AVs必须配备基于需求的HMIs以提供解释。有效的汽车HMI设计存在一些挑战。首先,人们可能对HMI有不同的选择或偏好(即显示监视器、警报界面等)。此外,用户的各种认知和功能能力必须是设计用户界面的关键因素[82]。例如,视觉或听力受损的人可能需要定制的HMI。因此,汽车制造商必须考虑用户的多样性,考虑与相关行动相对应的HMI解释的时间视角,并就有效的HMI设计达成共识,以实现AVs[204]。
根据上述过程步骤和关键元素,我们可以看到,实现自动驾驶模型的可解释性是具有挑战性的,需要整合这些步骤并与用户和AVs合作。因此,我们认为,尽管透明和高度自动化的驾驶是可行的,但人的因素必须是设计和开发此类系统的重要考虑因素。我们提出的框架的简单图形表示可以在图7中看到。同样值得注意的是,以前的自动驾驶XAI框架,如[46]和[94],侧重于模块化流程,而我们的框架据我们所知,是第一个为端到端自动驾驶提出的框架,与当前汽车工业的趋势保持一致。在下一节中,我们设想了现代AI技术和安全性以及基于当前工业趋势和可解释性的AV研究的未来,并列出了一些实现这一目标的潜在挑战。
6.向AV 2.0迈进:在具身AI中统一视觉、语言和行动以实现安全和可解释的端到端自动驾驶
虽然上述小节主要从特定组件的角度描述了XAI方法的潜力,但我们还需要将AVs的学习软件视为一个整体驾驶系统。从1988年的ALVINN[14]开始的三十年研究,以及随后的DARPA Grand Challenge[205],已经用传统AI软件取得了显著的里程碑。然而,最近在基础模型方面的突破,就LLMs和VLMs而言,激励了向下一代AVs的过渡。这一代AVs已被行业专业人士称为AV2.0[206], [207], [208]。提议是,集成的传感器套件、计算资源(即GPU、TPU)和深度学习方法的可用性可以帮助AVs通过自适应学习、扩展和泛化在复杂驾驶环境中导航。通过与环境的互动而不是依赖静态数据集不断学习的能力,导致了被称为“体现AI”[209], [210]的新方向的出现,AV2.0研究可以以这种学习方式向前发展。有效地在体现AI中统一视觉、语言和行动可以使得自动驾驶车辆能够实时导航、解释和描述其高层次决策。然而,端到端自动驾驶架构的安全性和可解释性组件必须克服AI中的基本挑战,如下所述:
安全性:关于AI安全性的核心问题[211]强调了五个重要考虑因素:避免负面副作用、避免奖励黑客攻击、可扩展的监督、安全探索和对分布偏移的鲁棒性。我们如下分析这些问题对端到端自动驾驶的影响:
- 避免负面副作用:自动驾驶主要与自动驾驶车辆避免事故和与计划运动轨迹上的静止和动态物体保持安全距离的能力相关。然而,问题的范围不限于此特征。考虑一个特定时刻自动驾驶车辆与另外两辆车V1和V2的交互场景。在自身安全决策的同时,自动驾驶车辆还必须确保它不会隐含地使V1和V2在同一路段造成事故,作为车对车(V2V)通信的一部分。根据[211],解决这个问题的潜在解决方案可能是利用合作逆强化学习[212],其中自动驾驶系统可以与人类合作,人类行为者可以在此类系统表现出不良行为时随时关闭自动驾驶系统。在自动驾驶的背景下,这种细微差别可以与AVs与人类驾驶车辆或其他远程操作员监控AVs的整体驾驶安全相关。这种情况下的一个突出方法是同情合作驾驶或SymCoDrive范式[213],它训练代理不仅为自己实现安全驾驶,而且通过促进合作自动驾驶中的利他驾驶行为,为人类控制的车辆实现安全驾驶。随着AVs在道路上的逐步部署,与人类驾驶车辆的协同作用是社会意识和安全导航的可行方法。
- 避免奖励黑客攻击:我们能否确保端到端驾驶系统不会根据在较不动态的环境中的观察结果塑造其动态奖励函数,并在过渡到高度动态环境时仍然应用该奖励塑造?特别是,作为一个具有自适应学习和在未见环境中泛化能力的体现AI代理,奖励制定必须考虑长远的地平线,并不应调整其短期安全驾驶行为的目标。Knox等人[214]最近对这一主题进行了很好的调查。他们提出,通过八个理智检查可以识别RL控制自动驾驶的奖励塑造中的缺陷:不安全的奖励塑造、人与奖励函数偏好之间的潜在不匹配、通过不关心点的风险容忍度、可学习的漏洞、缺失属性、冗余属性和试错奖励设计。该研究揭示了这些理智检查可以捕捉到自动驾驶奖励塑造中的缺陷,这些缺陷也可能存在于其他任务的奖励塑造中。
- 可扩展的监督:我们能否衡量AVs在所有驾驶情况下是否达到或超过人类水平的表现,而在特定时刻,由于某些原因,评估端到端驾驶的驾驶行为可能对人类来说很困难?虽然在人类覆盖之外,暂时的(即,参考Molly问题[215]),我们能否相信AVs在那一刻会安全行事?Amodei等人[211]报告说,这个问题的一个潜在解决方案可能是半监督RL:代理只能在一小部分情节或时间步骤上看到它的奖励。虽然使用所有情节的奖励来评估代理的表现,但代理只能使用那一小部分奖励来优化其性能。 - 安全探索:AVs是否总能在特定时间间隔内做出安全决策?例如,自动驾驶车辆可能会因交通拥堵而改变其预定义路线;然而,替代路线可能有危险的坑洼或其他损坏的基础设施,这可能导致在试图节省旅行时间时出现危险驾驶。
- 对分布偏移的鲁棒性:AVs的一个众所周知的问题是从模拟环境过渡到真实道路。例如,在模拟环境中表现出色的基于RL的端到端自动驾驶可能在部署到物理自动驾驶车辆时表现并不相同。Filos等人[216]调查了这个话题,并提出了一种用于认知不确定性感知规划的鲁棒性模仿规划技术。关键思想是,如果模型在建议安全行动方案时有很大的不确定性,模型可以通过查询专家驾驶员的反馈来实现样本高效的在线适应。通过几次实验和最先进的结果,作者还发布了CARNOVEL,这是一个评估驾驶代理对分布偏移的鲁棒性的基准。这样一个基准可能是解决分布外场景问题的重要部分。这些问题反映了端到端AVs的潜在安全问题的广泛范围。然而,我们认为提议错过了另一个重要概念,即故障安全能力。这个概念在一些最近的研究中已经被调查[217], [218], [219];然而,下一代AVs[206], [207], [208]的最近提议并没有明确考虑这个功能作为这项技术的一个组成部分。人类驾驶员在长途旅行中经常休息,短暂的休息可以帮助他们在接下来的驾驶阶段中感觉更好。同样的例子也可以应用于AVs。由于内部原因(例如,临时系统故障)或外部因素(例如,极端恶劣的天气条件),AVs可能需要暂时暂停他们的旅行,并防止进一步的高风险后果。这种能力不应被视为AVs的限制;相反,它是一个最优的设计策略,预见了由于任何因素可能引起的潜在问题,并指导AVs通过“短暂休息”安全行事。解释性:第IV节中审查的研究表明,自动驾驶系统的可解释性取得了显著的里程碑。然而,在所有旅行阶段实现准确和及时的解释仍然存在重大差距和挑战。例如,截至2023年9月,据报道LINGO-1在其语言和基于VQA的解释中的性能约为人类水平的60%[175]。除了信息内容外,另一个值得关注的关键是这些解释的时间视角:对于紧急情况的提前时间,可能需要使用广泛的基于场景的评估或基于案例的推理来适当设计。此外,大型预训练模型的一个众所周知的问题是幻觉,这是解释传递中的另一个挑战。特别是,在QA模型中,模型必须根据联合问题和基于场景的语义生成响应,而不是受到问题本身的影响,例如在对抗性查询的情况下。我们最近进行了一项实证研究[186],表明即使先进的VLMs也可能无法检测到QA模型中的语言偏见,并在人类对抗性问题的情况下提供错误的解释。这个问题反过来可能会损害用户信任,也可能对自动驾驶的安全产生负面影响。因此,我们认为大型预训练模型的构建机制可以通过常识和人类定义的概念进行调整和规范,正如Kenny和Shah[220]所主张的。因此,设计健壮的QA模型值得更多关注,以实现用户和AVs之间有意义的和可信的对话。这些功能是实现有效的人AI对齐[221], [222], [223]、信任[7], [224]和公众接受[46], [223]的关键,以实现在受监管的AI原则下的AV2.0。图8描述了我们对AV2.0的看法,以及它与AV1.0的区别,补充了图7中端到端自动驾驶的XAI框架的现代方法。
结论
在本文中,我们提供了对自动驾驶中XAI方法的现有研究、新兴范式和未来视角的系统性概述。从这些研究中获得的见解揭示了现有的差距,我们提出了一个概念性框架来解释自动驾驶,整合了缺失的部分。关键思想是,随着自动化能力的提高,AVs需要实现符合监管的操作安全性和可解释性。连同对基于XAI的自动驾驶的详细概述,我们的工作提供了一个因果解决方案的视角。我们通过识别当前的差距、关注点和各种问题来阐述原因,通过公众对更广泛使用自动驾驶的抗拒来表示效果。我们通过提出的概念框架和一系列有前景的XAI方法提供解决方案。本文可以帮助汽车研究人员和从业者了解自动驾驶中XAI方法的新兴趋势和工业趋势,并帮助实现负责任的、可信的和公众可接受的下一代AVs。