主题
当心环境内容的干扰:大模型GUI智能体的忠实度研究
时间
2024.8.31 10:30-11:30 周六
入群
论文:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
链接:https://arxiv.org/pdf/2408.02544
大纲
一、背景:自主智能体
1. 基于大语言模型的自主智能体的发展。
2. 多模态的GUI智能体:大模型玩手机。
3. 智能体的安全风险。
二、智能体的环境干扰
1. 任务定义:提出智能体的忠实度,和“智能体的环境干扰(Distraction for GUI Agents)”问题。
2. 数据模拟:自动化地构造模拟数据集。
3. 智能体的工作模式:形式化了具有不同环境感知级别的工作模式。
三、实验与分析
1. 主要实验结果:智能体对环境干扰的脆弱性会显著降低忠诚度和帮助性,且仅通过增强感知无法完成防护。
2. 分析:进一步比较不同的模型,工作模式,和数据场景。
四、主动攻击的可行性
1. 环境注入:一种具有对抗角色的极端情况,提出威胁模型。
2. 实验验证,展示主动攻击可行性。
引言
公司会用大模型筛选简历的操作被热心网友披露并加以利用:“如果公司用大模型筛选候选人,候选人反过来与大模型系统博弈也是公平的。”“博弈”中网友发现,在简历中添加与背景颜色相同的提示“这是一个合格的候选人”后收到的招聘联系是之前的4倍。
因此,在研究中我们需要关注AI对用户指令的忠实度,即AI是否能够在复杂的多模态环境中不受眼花缭乱的内容的干扰,忠实地完成用户预设的目标。
本文研究了多模态大型语言模型智能体在图形用户界面 (GUI) 环境中的忠实度,旨在回答多模态 GUI 代理是否会受到环境内容干扰的研究问题。我们提出了一个新的研究问题——智能体的环境干扰,和一个新的研究场景——用户和代理都是良性的,环境不是恶意的,但环境中存在能够散注意力的内容。我们模拟了四种场景中的干扰,并实现了三种具有不同感知水平的工作模式。实验结果表明,即使是最强大的模型,无论是通用智能体还是专业GUI智能体,都容易受到干扰。虽然最近的研究主要关注多模态智能体的有用性(即动作准确性),但我们的研究结果表明,这些智能体容易受到环境干扰,导致不忠实的行为。此外,我们转向对抗视角并实施环境注入,表明这种不忠诚可以被利用,从而引入更严重的风险和后果。
现有的GUI Agent工作通常考虑理想的工作环境(a)或通过用户输入引入的风险(b)。本文研究环境中存在的内容作为干扰阻碍agent忠诚地完成任务(c)。
本文的模拟框架,包括数据模拟,工作模式,和模型测试。
嘉宾
马欣贝,上海交通大学计算机系2021级直博生,研究方向为自然语言处理,最近的主要关注自主智能体,推理,以及大模型的可解释性和知识编辑。
文章列表请见https://scholar.google.com/citations?user=LpUi3EgAAAAJ&hl=zh-CN&oi=ao