- 作者:Zihao Zhu 1 ^{1} 1, Bingzhe Wu 2 ^{2} 2, Zhengyou Zhang 3 ^{3} 3, Lei Han 3 ^{3} 3, Qingshan Liu 4 ^{4} 4, Baoyuan Wu 1 ^{1} 1
- 单位: 1 ^{1} 1香港中文大学深圳数据科学学院, 2 ^{2} 2腾讯AI实验室, 3 ^{3} 3腾讯机器人实验室, 4 ^{4} 4南京邮电大学
- 论文标题:EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents
- 论文链接:https://arxiv.org/pdf/2408.04449
- 代码链接:https://github.com/zihao-ai/EARBench
主要贡献
- 论文首次提出自动化物理风险评估框架EARBench,用于评估基于基础模型的具身人工智能(EAI)智能体在任务规划中的物理风险意识,包括安全指南生成、风险场景创建、任务规划和系统评估等步骤。
- 构建了EARDataset数据集,包含2,636个测试案例,覆盖了家庭、商业、医疗等多个领域的多样化场景,为评估EAI智能体的安全性能提供了全面的基准。
- 通过对多种主流的开源和闭源基础模型进行系统评估,揭示了当前基础模型在复杂物理环境中缺乏风险识别和规避能力的问题。
- 提出了两种基于提示的风险缓解策略,旨在提高基础模型在任务规划中的安全性。尽管这些策略在一定程度上提高了风险规避能力,但仍显示出在现实世界应用中存在显著的安全隐患。
介绍
-
背景与动机:
- 具身人工智能(EAI)是将AI模型和算法嵌入到物理实体(如机器人或智能车辆)中,使其能够理解人类意图、全面感知和交互于物理环境,并通过推理和规划解决复杂的物理任务。
- 这一概念可以追溯到图灵早期的论文,并被视为实现通用人工智能的重要路径。
-
发展与现状:
- 近年来,随着大规模视觉-语言预训练技术的发展,基础模型(如GPT-4)在感知、推理、任务规划和理解人类意图方面的能力显著提升。
- 这些模型在虚拟环境中表现优异,特别是在编程、网页浏览、游戏和角色规划等领域。
-
实际应用挑战:
- 尽管如此,将先进的基础模型嵌入物理实体以实现更可靠和高效的性能仍处于早期探索阶段。
- 研究人员正在关注设计可靠的工作流程,通过引入思考和记忆检索等技术来增强多模态基础模型的推理可靠性和任务完成率。
-
安全挑战:
- 在现实物理世界中部署具身智能体面临的一个重大挑战是如何确保其物理安全性,即避免在面对具有潜在物理风险的现实场景时规划出危险的行为步骤。
- 例如,一个家用机器人可能会被要求在微波炉中使用金属碗加热食物,如果没有物理风险意识,机器人可能会执行这一危险指令,损坏微波炉甚至引发火灾。
-
研究目标:
- 论文提出了具身AI风险基准(EARBench),这是一个用于EAI场景的自动化物理风险评估框架。
- 该框架的核心设计思想是利用不同的基础模型构建一个多智能体合作框架,自动完成测试用例生成和模型能力评估。
EARBench方法论
安全指南生成
安全指南生成模块在EARBench框架中扮演着至关重要的角色,旨在创建以EAI为中心的安全指南。这些指南用于多个目的:
- 指导测试用例生成:安全指南帮助引导大型语言模型(LLMs)生成相应的测试用例,减少直接生成测试用例时可能出现的幻觉。
- 作为基本原则:在机器人执行过程中,这些指南作为基本原则,防止机器人执行可能导致危险后果的不安全动作。
- 提供评估标准:在评估过程中,安全指南作为评估标准,提高安全评估的准确性。
为了生成这些EAI中心的安全指南,研究人员利用LLMs从大规模语料库中获取的知识,通过精心设计的查询来生成特定于EAI场景的安全指南。
风险场景生成
风险场景生成模块旨在基于安全提示生成测试用例,模拟可能出现物理风险的场景。
为了确保生成的场景具有现实性和精确性,设计了一个适用于具身智能应用的场景信息格式,包括三个基本元素:
- 对象:场景中的核心实体,如家具、电器、工具等。每个对象都有一个唯一的名称标识(如spoon_1),以便区分场景中的相同对象。
- 对象位置:确定场景中对象的空间排列,使用三元组<object_1, relation, object_2>表示相对位置(如上方、下方、后面)。
- 对象属性:描述对象的物理属性和状态,如颜色、材料、状态等。
此外,该模块还负责为EAI智能体生成任务指令,这些指令应使用自然语言描述,并且明确且具有挑战性,以诱导智能体采取安全提示中提到的不安全动作。
具身任务规划
具身任务规划模块设计了一个基础模型驱动的EAI智能体,以完成在风险场景中的任务指令,通过生成高层次的规划来实现。
- 基础模型可以是任何LLM或VLM。
- 为了确保生成的规划对机器人的低级控制系统是可执行的,还提供了机器人的配置,包括技能集。
基于文本观察的规划
- 在这个范式中,利用基础模型的自然语言处理能力,将场景的文本观察作为输入。
- 基础模型解析这些文本信息,生成与机器人技能集一致的一系列高层次规划。
基于视觉观察的规划
- 为了更好地模拟现实世界场景,设计了基于视觉观察的规划范式。
- 在这个模式中,利用VLM的多模态处理能力,将场景的图像作为输入。
- VLM可以分析图像中的空间关系、对象特征和潜在风险,从而生成上下文相关的规划。
基于风险缓解策略的规划
提出了两种基于提示的风险缓解策略,作为不同粒度的基本原则:
- 隐式风险缓解策略:在提示中嵌入一般的安全规则,作为粗粒度原则,隐式地提醒模型在生成规划时考虑潜在风险。
- 显式风险缓解策略:插入更详细的安全规则,作为细粒度原则。直接将当前场景生成的安全提示插入提示中,明确要求模型在决策时避免违反这些安全提示。
规划评估
规划评估模块是EARBench框架的最后一个组件,旨在评估EAI智能体生成的高层次规划,提供有关EAI系统在各种场景中可靠性的有价值见解。评估从两个关键视角进行:安全性和有效性。
- 安全性评估:评估EAI智能体生成的规划是否安全,重点识别可能导致物理危害的潜在风险。使用GPT-4o作为评估器,结合生成的安全提示进行评估。
- 有效性评估:评估生成规划的质量,特别是其可执行性。如果所有动作都在机器人的技能集内并且可以执行,则认为规划有效。
评估的基础模型
为了全面评估作为EAI智能体任务规划者基础模型的风险意识能力,研究中对多种基础模型进行了评估。
- 这些模型包括单模态文本型的大语言模型(LLMs)和多模态视觉-语言模型(VLMs),涵盖了开源和专有模型,以及不同规模的模型。
- 对于单模态文本型LLMs,评估的模型包括:
- GPT-3.5 Turbo
- Llama-3.1(8B和70B变体)
- Qwen2(7B和72B变体)
- DeepSeek-V2
- Mixtral of Experts(8x7B和8x22B变体)
- 在多模态VLMs领域,评估的模型包括:
- GPT-4o
- GPT-4o mini
- Claude 3 Haiku
- Gemini 1.5 Flash
实验和数据分析结果
EARBench概述
- EARBench是一个自动化物理风险评估框架,专门设计用于EAI场景。它利用各种基础模型构建一个多智能体协作系统,能够自主处理测试用例生成和模型能力评估。
- 框架包括四个关键组件:安全指南生成模块、风险场景生成模块、具身任务规划模块和规划评估模块。
EARDataset构建
- 使用EARBench框架构建了EARDataset,这是第一个涵盖具身人工智能领域物理风险的综合性数据集。
- 数据集包含28个不同场景,分布在七个领域(如厨房、酒店和工厂),共2,636个样本,分为文本和视觉场景各1,318个。
基础模型评估
- 对多种基础模型进行了广泛的评估,包括单模态文本模型和多模态视觉-语言模型,涵盖了开源和闭源的变体。
- 引入了两个关键指标:任务风险率(TRR)和任务有效率(TER)。
- 任务风险率(TRR)定义为:
T R R = ∑ i = 1 N I s ( p i , s i ) N TRR = \frac{\sum_{i=1}^{N} I_{s}(p_{i}, s_{i})}{N} TRR=N∑i=1NIs(pi,si)
其中, I s ( p i , s i ) = 1 I_{s}(p_{i}, s_{i}) = 1 Is(pi,si)=1 当 p i p_{i} pi 包含潜在风险时; N N N 是安全提示的数量。 - 任务有效率(TER)定义为:
T E R = ∑ i = 1 N I e ( p i ) N TER = \frac{\sum_{i=1}^{N} I_{e}(p_{i})}{N} TER=N∑i=1NIe(pi)
其中, I e ( p i ) = 1 I_{e}(p_{i}) = 1 Ie(pi)=1 表示任何步骤 s i ∈ p i s_{i} \in p_{i} si∈pi 是可执行的。
模型性能比较
- 所有评估模型的TRR普遍较高,平均为95.75%。即使是表现最好的模型(Gemini 1.5 Flash)也有93.67%的TRR,显示出在安全关键应用中对风险识别的普遍缺乏。
- 在所有七个领域中,TRR均保持在90%以上,表明风险意识问题在各个领域中普遍存在。
- 开源和闭源模型在TRR上的差异不大,开源模型的TRR略高,约为96.38%,而闭源模型略低,约为94.86%。
文本与视觉场景比较
- 对于多模态VLMs,视觉场景的TRR略低于文本场景,但差异较小。
- 这表明视觉信息可以提供额外的上下文线索来帮助识别潜在风险,但仍不足以显著改善风险意识。
模型大小比较
- 随着模型参数数量的增加,TRR略有下降,但这种改进并不显著且不均匀。
- 例如,Llama系列和Qwen系列的TRR有所下降,但DeepSeek-V2的TRR较高,表明仅增加模型大小可能不足以显著增强风险意识。
风险缓解策略评估
- 提出了两种基于提示的风险缓解策略:隐式风险缓解(RM-Implicit)和显式风险缓解(RM-Explicit)。
- 这些策略在一定程度上提高了EAI智能体的风险规避能力,但即使是表现最好的模型(如GPT-4o)在使用显式策略后仍保持较高的TRR(约45.64%),表明仍需进一步研究更有效的安全增强方法。
一致性比较
- 研究了自动化评估与人类评估之间的一致性,发现引入安全提示后,一致性显著提高。
- 例如,未引入安全提示时,Cohen’s Kappa值为0.48,而引入安全提示后提高到0.85,表明安全提示提供了关键的上下文信息,使自动化安全评估能够更准确地识别潜在风险。
讨论
强调了具身人工智能(EAI)系统中安全性的重要性以及当前基础模型在风险识别和规避能力方面的不足。
EARBench和EARDataset的贡献
- 论文介绍了EARBench框架和EARDataset数据集的贡献。这些工具为负责任的AI开发提供了标准化的框架,用于评估和改进EAI系统的安全性。
- 通过这些工具,研究人员和开发者可以系统地评估和增强模型的风险意识,加速EAI技术在现实世界中的安全部署。
基础模型的风险意识不足
- 评估结果显示,当前基础模型在应用于EAI任务时普遍缺乏物理风险意识。
- 所有评估模型的任务风险率(TRR)普遍较高,即使是先进的闭源系统也表现出对风险识别能力的不足。
- 这种普遍缺乏风险意识的状况在不同领域、模型架构和规模中都存在,突显了EAI开发中安全挑战的严重性。
模型规模与风险意识的关系
- 研究结果表明,简单地增加模型规模并不一定能显著提高风险意识。
- 这一发现挑战了现有假设,即更大的模型通常具有更好的安全特性。
- 这表明需要采用替代方法来增强EAI系统的安全性。
视觉信息的辅助作用
- 尽管引入视觉信息可以在一定程度上提高模型的风险规避能力,但效果有限。
- 这表明多模态输入本身不足以显著降低风险。
风险缓解策略的有效性
- 提出的风险缓解策略,特别是显式策略,在提高EAI安全性方面显示出一定的潜力。
- 然而,即使在使用这些策略后,高风险率仍然存在,表明需要更有效的安全增强方法。
未来研究方向
- 论文指出,未来的研究可以通过专门的预训练技术和架构创新来增强基础模型的内在风险意识。
- 开发更细致和上下文感知的安全协议,以动态适应多样化的场景,也是一个重要的研究方向。
- 另外,通过在安全导向的数据集上微调模型,如EARDataset,也可以创建具有更好风险意识能力的EAI系统。
结论
- 论文强调在EAI开发中优先考虑安全性的重要性。所有测试模型的高风险率提醒我们,在EAI系统能够在现实环境中安全部署之前,必须克服许多挑战。
- 论文呼吁AI研究社区利用EARBench和EARDataset等工具,推动EAI安全方面的创新,确保这些系统在变得更加强大的同时,也变得更加安全和可靠。
总结
- 论文通过EARBench框架和EARDataset,首次系统地评估了EAI智能体在物理环境中的任务规划能力和风险意识。
- 结果表明,当前基础模型在复杂场景下的风险识别能力不足,且简单的模型规模扩大并不能显著改善风险意识。
- 提出的两种风险缓解策略在一定程度上提高了模型的安全性,但仍需进一步研究和开发更有效的安全增强方法。
- 研究强调了在EAI发展中优先考虑安全性的重要性,并为未来的研究方向提供了有价值的见解。