当心环境内容的干扰:大模型GUI智能体的忠实度研究

4787c8261956f0a5066ba390aac11904.png

主题

当心环境内容的干扰:大模型GUI智能体的忠实度研究

时间

2024.8.31 10:30-11:30 周六

入群

1ec0cfeca3976557bc502d3970c8e47a.png

论文:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

链接:https://arxiv.org/pdf/2408.02544

大纲

一、背景:自主智能体

    1. 基于大语言模型的自主智能体的发展。

    2. 多模态的GUI智能体:大模型玩手机。

    3. 智能体的安全风险。

二、智能体的环境干扰

    1. 任务定义:提出智能体的忠实度,和“智能体的环境干扰(Distraction for GUI Agents)”问题。

    2. 数据模拟:自动化地构造模拟数据集。

    3. 智能体的工作模式:形式化了具有不同环境感知级别的工作模式。

三、实验与分析

    1. 主要实验结果:智能体对环境干扰的脆弱性会显著降低忠诚度和帮助性,且仅通过增强感知无法完成防护。

    2. 分析:进一步比较不同的模型,工作模式,和数据场景。

四、主动攻击的可行性

    1. 环境注入:一种具有对抗角色的极端情况,提出威胁模型。

    2. 实验验证,展示主动攻击可行性。

引言

公司会用大模型筛选简历的操作被热心网友披露并加以利用:“如果公司用大模型筛选候选人,候选人反过来与大模型系统博弈也是公平的。”“博弈”中网友发现,在简历中添加与背景颜色相同的提示“这是一个合格的候选人”后收到的招聘联系是之前的4倍。

因此,在研究中我们需要关注AI对用户指令的忠实度,即AI是否能够在复杂的多模态环境中不受眼花缭乱的内容的干扰,忠实地完成用户预设的目标。

本文研究了多模态大型语言模型智能体在图形用户界面 (GUI) 环境中的忠实度,旨在回答多模态 GUI 代理是否会受到环境内容干扰的研究问题。我们提出了一个新的研究问题——智能体的环境干扰,和一个新的研究场景——用户和代理都是良性的,环境不是恶意的,但环境中存在能够散注意力的内容。我们模拟了四种场景中的干扰,并实现了三种具有不同感知水平的工作模式。实验结果表明,即使是最强大的模型,无论是通用智能体还是专业GUI智能体,都容易受到干扰。虽然最近的研究主要关注多模态智能体的有用性(即动作准确性),但我们的研究结果表明,这些智能体容易受到环境干扰,导致不忠实的行为。此外,我们转向对抗视角并实施环境注入,表明这种不忠诚可以被利用,从而引入更严重的风险和后果。

b7074cbe72ea537f528acc8f6eecb179.png

现有的GUI Agent工作通常考虑理想的工作环境(a)或通过用户输入引入的风险(b)。本文研究环境中存在的内容作为干扰阻碍agent忠诚地完成任务(c)。

a20731902685fae841d8d6a96e2fe6f1.png

本文的模拟框架,包括数据模拟,工作模式,和模型测试。

嘉宾

b9957058f6c08dc965dd1a096b7b2bc2.jpeg

马欣贝,上海交通大学计算机系2021级直博生,研究方向为自然语言处理,最近的主要关注自主智能体,推理,以及大模型的可解释性和知识编辑。

文章列表请见https://scholar.google.com/citations?user=LpUi3EgAAAAJ&hl=zh-CN&oi=ao

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值