当心环境内容的干扰：大模型GUI智能体的忠实度研究

zenRRan

于 2024-08-28 14:38:00 发布

阅读量131

点赞数 1

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247529076&idx=1&sn=587a7e753aa7b7350c0a4586b85e6a9d&chksm=ea18f0ebae15a237b9afcbbf1ec175d7a782434bf559af810c146d1ad03c48a6de833c494a7a&scene=126&sessionid=0

版权

主题

当心环境内容的干扰：大模型GUI智能体的忠实度研究

时间

2024.8.31 10:30-11:30 周六

入群

论文：Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

链接：https://arxiv.org/pdf/2408.02544

大纲

一、背景：自主智能体

1. 基于大语言模型的自主智能体的发展。

2. 多模态的GUI智能体：大模型玩手机。

3. 智能体的安全风险。

二、智能体的环境干扰

1. 任务定义：提出智能体的忠实度，和“智能体的环境干扰（Distraction for GUI Agents）”问题。

2. 数据模拟：自动化地构造模拟数据集。

3. 智能体的工作模式：形式化了具有不同环境感知级别的工作模式。

三、实验与分析

1. 主要实验结果：智能体对环境干扰的脆弱性会显著降低忠诚度和帮助性，且仅通过增强感知无法完成防护。

2. 分析：进一步比较不同的模型，工作模式，和数据场景。

四、主动攻击的可行性

1. 环境注入：一种具有对抗角色的极端情况，提出威胁模型。

2. 实验验证，展示主动攻击可行性。

引言

公司会用大模型筛选简历的操作被热心网友披露并加以利用：“如果公司用大模型筛选候选人，候选人反过来与大模型系统博弈也是公平的。”“博弈”中网友发现，在简历中添加与背景颜色相同的提示“这是一个合格的候选人”后收到的招聘联系是之前的4倍。

因此，在研究中我们需要关注AI对用户指令的忠实度，即AI是否能够在复杂的多模态环境中不受眼花缭乱的内容的干扰，忠实地完成用户预设的目标。

本文研究了多模态大型语言模型智能体在图形用户界面 (GUI) 环境中的忠实度，旨在回答多模态 GUI 代理是否会受到环境内容干扰的研究问题。我们提出了一个新的研究问题——智能体的环境干扰，和一个新的研究场景——用户和代理都是良性的，环境不是恶意的，但环境中存在能够散注意力的内容。我们模拟了四种场景中的干扰，并实现了三种具有不同感知水平的工作模式。实验结果表明，即使是最强大的模型，无论是通用智能体还是专业GUI智能体，都容易受到干扰。虽然最近的研究主要关注多模态智能体的有用性（即动作准确性），但我们的研究结果表明，这些智能体容易受到环境干扰，导致不忠实的行为。此外，我们转向对抗视角并实施环境注入，表明这种不忠诚可以被利用，从而引入更严重的风险和后果。

现有的GUI Agent工作通常考虑理想的工作环境（a）或通过用户输入引入的风险（b）。本文研究环境中存在的内容作为干扰阻碍agent忠诚地完成任务（c）。

本文的模拟框架，包括数据模拟，工作模式，和模型测试。

嘉宾

马欣贝，上海交通大学计算机系2021级直博生，研究方向为自然语言处理，最近的主要关注自主智能体，推理，以及大模型的可解释性和知识编辑。

文章列表请见https://scholar.google.com/citations?user=LpUi3EgAAAAJ&hl=zh-CN&oi=ao

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。