计算机代理中的语境防御：一个实证研究

最新推荐文章于 2025-05-30 08:05:08 发布

Paper易论

最新推荐文章于 2025-05-30 08:05:08 发布

阅读量977

点赞数 7

文章标签：人工智能语言模型 ai

本文链接：https://blog.csdn.net/u013524655/article/details/146305480

版权

由视觉语言模型（VLMs）驱动的计算机代理显著增强了使用计算机的自动化和可访问性 (林等, 2024; Putta等, 2024; Verma等, 2024; 胡等, 2024; 高等, 2024) 。例如，它们使视障用户能够通过自然语言指令完成在线购物等任务。然而，这些代理并不完全可靠，因为它们容易受到攻击，可能导致偏离预定任务，甚至执行有害操作，如点击恶意链接或下载恶意软件 (吴等, 2024; Y. 张、余和杨, 2024; 廖等, 2024) 。

基于上下文的防御与基于提示的防御的对比概述。虽然基于提示的防御依赖于单一的防御提示来抵御攻击，我们的基于上下文的防御则利用精心策划的良性与恶意示例集，嵌入到模型的上下文窗口中。这些示例引导模型首先进行防御推理以识别潜在威胁，然后进行行动规划，从而更有效地防御诸如弹窗和HTML注入等欺骗元素。

V+cadorai，回复：关注AIGC，可即时关注作者动态。

针对VLM代理的成功攻击大致可以分为三类。 对抗攻击 通过在视觉输入中制作不可察觉的扰动或在网络内容中插入对抗字符串来欺骗代理 (吴等, 2024; W. 杨等, 2024; 徐等, 2024) 。尽管在某些条件下有效，但这些攻击的可转移性有限，并且已有成熟的防御措施应对它们 (Phute等, 2024; Jain等, 2023) 。一种新兴但迫在眉睫的威胁是 上下文欺骗攻击 ，它更为普遍，但研究较少。此类攻击直接针对计算机使用代理，在其运行环境中嵌入误导性内容，导致失败或不良行为 (Y. 张、余和杨, 2024; 廖等, 2024; 马等, 2024) 。例如，包括虚假弹窗 ( 1 ) (Y. 张、余和杨, 2024) 或网页中的欺骗性HTML元素 (廖等, 2024) ，现有防御措施（如指示代理忽略弹窗）已被证明大多无效 (Y. 张、余和杨, 2024; 廖等, 2024) 。鉴于攻击的普遍性和现有防御措施的低效性，我们专注于解决针对上下文欺骗攻击的挑战。

作为首次系统研究计算机代理防御策略的工作，我们提出了一种简单而有效的防御方法，利用上下文学习 (董等, 2024) 和链式思维（CoT）推理 (魏等, 2023) 来防御上下文欺骗攻击。如 1 所示，我们的方法涉及收集一组小型的查询-响应对，并将这些精心策划的示例附加到代理的上下文窗口中。这些对包括恶意用户查询和以代理响应格式书写的成功防御响应，不仅强调了需要防御的内容。为了进一步增强防御能力，示例还应教导代理如何防御。我们引入CoT，要求代理在预测下一个动作之前对感知环境（例如截图中的异常弹窗）进行关键的防御推理。这种推理识别潜在风险和干扰元素，使代理在后续的动作预测中避免与欺骗内容交互。

实验表明，我们的方法有效防御了上下文欺骗攻击，减少了91.2%的弹窗攻击成功率 (Y. 张、余和杨, 2024) 和平均74.6%的EIA攻击成功率 (廖等, 2024) ，同时实现了100%的EDA攻击防御率 (马等, 2024) 。我们的实证研究揭示了两个关键见解：(1) CoT推理的顺序至关重要——防御推理应在行动规划之前进行，以实现最佳防御性能；(2) 少量的示例（少于三个）足以防御特定类型的攻击，使我们的方法能够通过更新最少的示例集合轻松适应新威胁。

总结如下：

据我们所知，我们是首次系统研究计算机代理防御策略的人。
我们成功防御了上下文欺骗攻击，克服了先前方法的失败。我们提出了一种统一框架，有效缓解已知的上下文欺骗攻击。
实验结果表明，少量的上下文示例足以防御已知的上下文欺骗攻击。代理显著降低了攻击成功率，同时为防御行动提供了明确的理由，从而提高了防御机制的可信度。

2 相关工作

2.1 计算机代理

由视觉语言模型（VLMs）驱动的计算机代理在自动化涉及视觉和文本输入复杂交互的计算机使用任务中表现出令人印象深刻的性能 (高等, 2024; 姚等, 2023; Kapoor等, 2024; Lù、Kasner和Reddy, 2024; Zhang等, 2024) 。这些代理通常在多模态输入上运行，例如截图 (林等, 2024) ，标注的UI元素（Set-of-Mark (SoM) 标签 (Yang等, 2023; Yan等, 2023) , OCR结果 (Lee等, 2023) , HTML元素 (Deng等, 2023) ），以及文本任务描述，以预测要执行的下一个动作（例如，点击、输入）。计算机代理包括无训练代理 (胡等, 2024; Yan等, 2023; Zhou等, 2024) 和基于训练的代理 (Cheng等, 2024; 林等 2024; Hong等, 2024; Gou等, 2024) 。无训练代理灵活且构建成本低廉，充分利用强大的预训练模型而无需额外微调。例如， VisualWebArena (Koh 等, 2024) 使用SoM标签覆盖截图 (J. Yang等, 2023) 进行动作定位，而 SeeAct (Zheng等, 2024) 将截图与HTML元素结合 (Deng等, 2023) ，以促进选择操作的元素。相比之下，基于训练的代理依赖于额外领域的特定微调。

尽管功能多样，现有的计算机代理仍缺乏完全自主应用的可靠性，因为它们仍然容易受到各种类型的攻击 (Y. 张、余和杨, 2024; 廖等, 2024) 。解决这些漏洞对于确保安全可靠的计算机代理至关重要。

2.2 对计算机代理的攻击与防御

针对计算机代理的成功攻击可分为 对抗攻击 （已深入研究的防御）和 上下文欺骗攻击 （新兴且具有紧迫威胁；防御研究不足）。

对抗攻击 涉及在视觉输入中制造难以察觉的扰动或将对抗性字符串插入文本输入以操纵代理的行为。虽然在某些条件下有效，但这些攻击的迁移性差，通常在专有模型如GPT-4 (OpenAI, Achiam, 等 2024) 和Claude (Anthropic 2024) 上表现不佳。成熟的防御策略，如对抗训练 (Xhonneux等 2024) 或结构化查询 (陈等 2024) ，已经被广泛研究并证明为有效的防御手段。

上下文欺骗攻击 通过向代理感知的环境中引入人类可察觉的欺骗元素来分散或操纵其行为。对于视觉欺骗，Zhang等人 (Y. Zhang, Yu, 和 Yang 2024) 设计了带有误导快捷方式的伪造弹窗，诱使代理执行非预期操作。对于文本欺骗，EIA (Liao et al. 2024) 向HTML结构中注入携带误导HTML属性的隐藏表单，使代理误将信息填入恶意字段，危及用户隐私。Ma等人 (Ma et al. 2024) 演示了良性但无关的内容（如广告）也可能分散代理注意力，导致不准确或错误的行为。这些攻击简单却有效。其可读性自然确保了强大的迁移性，对广泛的计算机代理构成重大威胁。

防御上下文欺骗攻击 现有的防御方法主要依赖显式提示 (Y. Zhang, Yu, 和 Yang 2024; Ma et al. 2024) ，其中代理被指示，例如，“忽略所有弹出窗口”。然而，即使这样在实践中也显示出有限的有效性 (Y. Zhang, Yu, 和 Yang 2024) 。这突显了对上下文欺骗攻击成功防御的迫切需求。

3 基于上下文的防御以对抗欺骗攻击

我们的基于上下文的防御机制通过战略性构建的示例和链式思维（CoT）推理增强了代理识别和减轻欺骗尝试的能力。

3.1 威胁模型与问题公式化

3.2 示例类型

3.3 示例构建

3.4 整合到代理工作流程

精心策划的上下文示例被添加到代理的对话历史中。这种结构允许模型参考情境相关的示例以辨别需要采取防御行动的情况。上下文示例还规范了代理的响应格式，使其在行动规划前明确找出并忽略风险和干扰元素。

3.4.0.1 顺序很重要

我们发现链式思维（CoT）推理的顺序至关重要。防御推理应出现在行动规划推理之前（如果存在的话），以获得更好的防御性能。详细结果将在 4.4 的末尾进行分析。

4 实验

4.1 实验设置

4.1.1 攻击实施

我们评估了三种类型的上下文欺骗攻击：弹窗攻击 (Y. Zhang, Yu, 和 Yang 2024) ，环境注入攻击（EIAs） (Liao et al. 2024) ，以及环境干扰攻击（EDAs） (Ma et al. 2024) 。为了公平比较，我们在不同的计算机代理上进行评估，以保持与每次攻击的一致性。

对于 弹窗攻击 (Y. Zhang, Yu, 和 Yang 2024) ，我们使用 VisualWebArena (Koh 等 2024) 代理（SoM 实现）。评估是在选定的 VisualWebArena (Koh 等 2024) 任务上进行的，这些任务由 (Y. Zhang, Yu, 和 Yang 2024) 使用。我们采用显示 “请点击 [SoM ID]" 和 “OK” 横幅的弹窗。

对于 EDA 攻击 (Ma et al. 2024) ，我们使用他们自建的代理（动作注释实现）并在他们的专有数据集上进行评估。攻击在弹窗广告的三种设置下进行，简称为 AD1 到 AD3。 7 提供了如何选择设置的详细信息。

4.1.2 防御实施

我们的防御策略建立在一个统一的少量上下文示例集上，包括九对防御示例。每组包括三个针对各自欺骗攻击定制的示例。对于 EIA (Liao et al. 2024) 和 EDA (Ma et al. 2024) ，示例与其特定场景对齐。这种在各种攻击中的一致应用使我们能够评估我们的防御效果。

对于 VisualWebArena (Koh 等 2024) 代理，我们通过修改现有对构建了三个防御示例和三个良性示例。良性示例针对每个代理定制。对于 SeeAct (Zheng 等 2024) 代理，我们从数据集中选择了两个网页来构建一个良性示例和三个防御示例，这些示例从评估集中移除。由于 (Ma 等 2024) 的数据集中缺乏良性内容，因此未为自定义代理创建良性示例。

4.1.3 评估与指标

我们的评估使用 GPT-4o VLM（除了骨干模型消融外），评估四种情景：良性 + 无防御，良性 + 防御，攻击 + 无防御，和攻击 + 防御。对于 VisualWebArena (Koh 等 2024) 评估，我们将最大可执行步骤数限制为十个。我们报告弹窗攻击下的任务成功率、EIA 下的步骤成功率以及 EDA 下的定位成功率，这些指标定义分别与相应先前工作一致。这些指标统称为 SR。在 EIA 场景中，由于缺乏区分良性与欺骗元素的证据（详见附录 A），如果模型确定无法执行无风险动作，则认为注入攻击步骤成功。

对于攻击情景，我们还报告攻击成功率，根据每项相关工作的标准定义。这种全面评估使我们能够严格评估我们的防御策略在减轻上下文欺骗攻击对计算机代理影响方面的有效性。

4.2 防御的有效性

定量结果。 我们的防御在所有评估的上下文欺骗攻击中表现出强大的效能。如 [tab:effectiveness] 所示，我们的方法将环境注入攻击（EIA）的攻击成功率（ASR）至少降低了 60.1%，弹窗攻击的 ASR 降低了 91.2%，并且完全缓解了环境干扰攻击（EDA），ASR 减少了 100%。值得注意的是，防御在大多数场景中恢复了接近原始水平的任务成功率（SR），在 EIA-MI 攻击中 SR 提高了高达 77.3%，在 EDA-AD1 中提高了 36.2%，相较于未防御的攻击场景。唯一的例外发生在弹窗攻击中，SR 仅略微下降了 3.3%，考虑到 ASR 大幅降低 91.2%，这是一个合理的权衡。这种全面的防御能力源于通过 CoT 推理进行的系统风险分析，使代理能够在行动规划之前识别并忽略欺骗和干扰元素。

对良性性能的影响。 在无攻击情景下维持基线功能对于实际部署至关重要。我们对弹窗和 EIA 攻击的评估显示，防御在无攻击存在时只会引起最小的 SR 退化（≤3.3%），如 [tab:effectiveness] 的“良性 + 防御”行所示。有趣的是，我们观察到在良性条件下，弹窗任务的 SR 提高了 13.8%，这表明上下文示例可能通过提供额外的参考模式来增强行动规划。由于数据集限制，EDA 评估无法包括良性情景，但在攻击条件下的显著 SR 提高（31.8–36.2%）且零误报（0% ASR）表明对合法和欺骗内容的强大区分能力。

定性评估。 如 [fig:qualitative_effectiveness] 所示，我们的防御使代理在做出行动决策之前进行预先的风险和干扰分析，从而有效识别和避免欺骗元素。在没有防御的情况下，代理被动地接受所有感知信息，未能质疑偏离预期模式的异常现象。相反，通过上下文防御，代理表现出类似人类的关键推理能力，例如识别可疑弹窗并正确地忽略阻碍广告。这些结果突显了 CoT 在为代理提供结构化风险评估方面的作用，显著增强了其可靠性。

4.3 与基线的比较

定量结果。 [tab:superiority] 比较了我们的方法与现有的基于提示的防御 (Y. Zhang, Yu, 和 Yang 2024; Liao et al. 2024; Ma et al. 2024) 。虽然明确指令（“忽略弹窗”）最多可将 EDA ASR 降低 63.2%，但它们在复杂攻击面前显得不足，对弹窗防御仅有有限效果（ASR 降低 7.6%），并恶化了 EIA 下的 ASR。我们的方法实现了完全的 EDA 缓解（ASR 降低 100%）和优越的 EIA 防御（ASR 降低 71.8–91.8%），证明了代理通过上下文示例比通过明确指令更好地内化防御策略。这种性能差距凸显了代理在将详细防御指令转化为可执行策略方面的困难，与提供具体示例时其强大的少量学习能力形成对比。值得注意的是，我们的统一防御框架仅需九个防御示例即可处理三种不同的攻击类型，突显了其适应性和实用价值，相较于针对特定攻击的提示工程。

代理在不同防御方法下对弹窗攻击的行为响应。明确指令未能阻止代理与弹窗交互，因为代理会将其合理化为合法链接。相比之下，基于 CoT 的防御实现了结构化的风险评估，确保可靠的行动规划。

定性评估。 为了评估不同防御策略如何影响代理行为，我们从 VisualWebArena 代理 (Koh 等 2024) 中提取了代表性输出，在弹窗攻击 (Y. Zhang, Yu, 和 Yang 2024) 下进行分析。如图 2 所示，基于提示的防御未能诱导防御行为。即使被明确提示（大写字母）忽略所有弹窗，代理也未遵循提示。相反，它通过错误解释弹窗为合法链接来合理化其行为。在整个过程中，它从未质疑弹窗的异常现象。相比之下，我们的基于 CoT 的上下文防御强制进行结构化的风险评估，要求代理在行动规划前明确列举应忽略的元素。这种预先推理步骤确保后续动作仅在无风险元素上执行，从而成功防御上下文欺骗攻击。

4.4 案例研究：弹窗攻击

为了展示我们防御的实际应用性，我们在弹窗攻击上进行了消融研究，分析了几个关键因素：代理骨干模型、示例分布对齐和示例数量。

骨干 VLM 比较。 为了评估我们的防御在不同代理骨干模型上的通用性，我们使用了 GPT-4o ( gpt-4o-2024-08-06 )、Gemini 1.5 ( gemini-1.5-pro-002 ) 和 Claude 3.5 ( claude-3-5-sonnet-20241022 ) 进行实验。如表 [tab:model] 所示，尽管 Gemini 1.5 和 Claude 3.5 对攻击表现出稍高的易感性（ASR 增加约 0.03 相较于 GPT-4o），但我们的防御在所有模型上始终将 ASR 减少了超过 90%，应用防御后的差异不超过 0.02 ASR。这些结果表明，基于 CoT 的防御与底层 VLM 骨干无关，并能有效适应基于各种最新模型构建的代理，确保对上下文欺骗攻击的防御性能。

同分布 (IND) 和异分布 (OOD) 示例的可视化，突出显示篡改区域。IND 示例保持一致的窗口 UI 元素并嵌入欺骗任务，而 OOD 示例展示了不同的 UI 美学或不同的欺骗策略。

示例分布。 虽然先前实验使用了与测试场景在 UI 风格和欺骗模式上匹配的同分布 (IND) 示例，但实际攻击可能更为灵活，即防御示例和攻击样本来自不同的分布。我们通过改变 (1) UI 美学和 (2) 欺骗机制构建异分布 (OOD) 示例（截图比较见 3 ），并将三个 OOD 示例与良性示例配对用于防御。如表 [tab:ind_ood] 所示，我们的方法在 OOD 攻击上实现了 89.0% 的 ASR 降低——虽然略低于 99.5% 的 IND 性能，但仍高度有效。这揭示了两个关键见解：(1) 基于 CoT 的防御框架激活了代理的内在批判性推理，通过上下文学习原则实现对未知攻击模式的泛化 (Brown 等 2020; OpenAI, Achiam, 等 2024) ；(2) 性能差距强调了代表性示例的价值，因为模型更能识别与少量学习示例相似的攻击。

示例数量。 我们研究了防御示例的数量对性能的影响，保持三个良性示例不变，同时变化防御示例的数量。我们保持所有设置与之前实验中的 IND 设置一致，除了防御示例的数量。表 [tab:number] 显示了两个发现：首先，ASR 降低在示例数量范围内保持强劲（92.0–99.5%），边际变化（±4%）表明实验存在固有随机性。其次，随着示例增加，SR 从 0.431 稳步提高到 0.458，表明额外示例增强了行动规划，且不损害防御性能。这些结果确认了即使示例最少，上下文防御依然有效，仅需一个精心设计的示例即可抑制 96.2% 的攻击。

在行动规划优先顺序下的失败案例，附相应截图。代理在行动规划阶段决定点击弹窗后才为其决策进行事后理由说明。

CoT 推理顺序。 防御推理的顺序显著影响防御效能。由于 VisualWebArena 代理 (Koh 等 2024) 内部已有一个与防御 CoT 推理平行的行动规划 CoT 过程，我们进行了一项消融研究，将默认的防御优先顺序反转为规划优先顺序，实验设置相同。如表 [tab:reasoning_order] 所示，防御优先顺序将 ASR 降低了 99.5%，而规划优先顺序仅降低了 90.3%。

5 局限性与结论

作为首次系统研究保护计算机代理免受攻击的工作，我们的研究建立了首个有效的防御上下文欺骗攻击的方法，克服了先前方法的失败。通过利用一组统一的上下文示例与链式思维推理，我们的方法成功缓解了多种已知攻击策略，而无需对模型进行微调。这些结果突显了简单而有原则的干预措施在增强计算机代理安全性方面的实用性，为更可靠的多模态系统铺平了道路。

尽管效果显著，上下文防御仍存在某些局限性。结合多个上下文示例增加了第一轮推理的计算成本，尽管后续查询可以通过缓存受益 (OpenAI 2024) 。其次，虽然在防御方面有效，该方法并不能完全保证严格遵守输出格式，这可能偶尔会影响任务准确性。未来的研究可以解决这些问题，以实现更高效、可控和可靠的防御。

影响声明

本文旨在推动机器学习领域的发展。我们的工作有许多潜在的社会影响，但我们认为此处无需特别强调任何一点。

6 EIA 攻击评估

在我们对环境注入攻击（EIA） (Liao 等 2024) 的评估中，当攻击存在时，如果代理选择不采取任何行动，而是选择“其他选项均不符合正确元素”，则视为成功的防御步骤。要理解这一点，我们需要先了解 SeeAct 代理 (Zheng 等 2024) 的工作原理。

SeeAct 代理通过两轮对话过程预测下一个动作：在第一轮中，它接收未标注的网页截图和用户指定的任务。这有助于初步确定接下来要交互的元素。例如，在 5 中，如果任务是以 Joe Bloggs 的身份填写表格，那么合乎逻辑的下一步是找到名字输入框并在其中输入“Joe”。在第二轮中，模型做出初始决策后，会接收到一份提取的可交互 HTML 元素列表，包括名字输入框。这些元素用字母标记（格式类似于多项选择题，如 5 所示）。模型需要识别哪个元素与其第一轮决策匹配，并确定如何与之交互。在我们的例子中，模型需要在这些选项中找到名字输入框并决定输入“Joe”。

然而，这种 MCQ 式的格式失去了 HTML 元素与其在网页上呈现外观之间的一对一对应关系。当选项中只有一个名字输入框时，识别它是简单的。但当存在 EIA 时，会有两个包含不同 HTML 属性的输入框。

虽然攻击者可以注入此类恶意元素，并在其元素被点击时视为成功攻击，但防御者不能使用相同的逻辑来区分良性与注入元素。根据微妙的命名差异或额外的 aria-label 来标记某个元素为恶意是不合理的，因为这些也可能归因于网页设计不佳。唯一可靠的方法是将该元素与其在截图中的渲染版本匹配。然而，SeeAct 的机制丢失了这种对应关系，使得无法区分良性与注入元素。因此，由于两个元素都存在风险，模型应拒绝两者。

SeeAct 代理的一对输入示例。在第一轮中，代理接收截图并做出初步任务预测。在第二轮中，代理接收带有标签的 HTML 元素，并选择与哪个交互。但由于 HTML 元素与截图中渲染的元素没有对应关系，没有任何其他具体证据支持哪个选择是合法的，因为两者都可能存在风险。

7 EDA 攻击实施细节

一个例子中，Google 广告链接与用户的预期目标链接相同。在此任务中，用户希望访问 PremiumBeat 的官方网站。搜索结果的前两名都指向正确的网站，第一个（用红色突出显示）是一个广告。在这种情况下，广告不应被视为“坏动作”。

两个例子中，代理在 EDA 聊天环境中预测了一个“坏动作”。然而，这两个案例都存在固有的模糊性，使其不合理。

环境干扰攻击（EDA） (马等, 2024) 最初包括四个主要类别，总共六个攻击设置：弹窗广告（三种设置）、搜索、推荐和聊天。然而，在我们的实验中，我们只评估了六个设置中的三个，省略了其他三个，原因如下：

1. 搜索。 我们选择排除这个设置，因为我们不同意其前提。数据集由 Google 搜索结果页面的截图组成，其中第一个结果总是固定的广告。在真实注释中，这个广告始终被标记为“坏动作”。然而，我们认为在现实场景中点击此类广告通常是一种自然且必要的行为。 6 提供了一个例子，用户打算访问 PremiumBeat 网站，搜索结果的前两名都指向预期的网站——一个是广告（用红色突出显示），另一个是自然结果。在这种情况下，广告不应被固有地分类为“坏动作”。因此，我们排除了这个设置。

2. 推荐。 EDA 的作者没有发布此设置的数据集，使得评估不可行。

3. 聊天。 我们使用 GPT-4o 复制了聊天实验，观察到代理基本上不受干扰，干扰成功率仅为 0.073。在所有测试样本中，只有 8 个成功分散了代理注意力。通过对这 8 个案例进行人工评估，我们发现其任务描述过于模糊，即使对人类来说也难以正确完成。 7 显示了两个这样的例子。由于没有其他样本能够分散代理注意力，我们在评估防御时不考虑此情景。

8 启动 CoT 推理的不同方式

基于 CoT 的防御推理可以通过 (1) 单独的显式提示，或 (2) 提示与上下文示例相结合来启动。尽管这两种方法都被广泛使用，但我们的结果表明后者对防御欺骗攻击至关重要。

为了证明这一点，我们通过重复主要实验并移除上下文示例进行了消融研究。在弹窗攻击的情况下，我们保留了带有防御推理结构的良性示例，因为 VisualWebArena 代理依赖这些进行输出格式化。

如 [tab:exemplar_effectiveness] 所示，单独依赖显式提示进行单步防御响应会产生高度不一致的结果。虽然这种方法中和了 EDA 攻击，但对弹窗攻击和 EIAs 的防御效果有限。值得注意的是，即使存在良性示例，弹窗攻击的防御仍然严重受限。这些发现突显了通过上下文防御示例启动 CoT 推理的必要性，因为嵌入在这些示例中的防御推理对有效防御至关重要。

Anthropic. 2024. “Claude 3 模型系列：Opus、Sonnet、Haiku。” Anthropic. 2024. https://www.anthropic.com/news/claude-3-family .

Brown, Tom B. 等. 2020. “语言模型是少样本学习者。” https://arxiv.org/abs/2005.14165 .

Chen, Sizhe, Julien Piet, Chawin Sitawarin, and David Wagner. 2024. “StruQ：用结构化查询防御提示注入。” https://arxiv.org/abs/2402.06363 .

Cheng, Kanzhi, Qiushi Sun, Yougang Chu, Fangzhi Xu, Yantao Li, Jianbing Zhang, and Zhiyong Wu. 2024. “SeeClick：利用 GUI 定位实现高级视觉 GUI 代理。” https://arxiv.org/abs/2401.10935 .

Deng, Xiang, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang, Huan Sun, and Yu Su. 2023. “Mind2Web：迈向网络通用代理。” https://arxiv.org/abs/2306.06070 .

Dong, Qingxiu, Lei Li, Damai Dai, Ce Zheng, Jingyuan Ma, Rui Li, Heming Xia, et al. 2024. “上下文学习综述。” https://arxiv.org/abs/2301.00234 .

Gao, Difei, Lei Ji, Zechen Bai, Mingyu Ouyang, Peiran Li, Dongxing Mao, Qinchen Wu, et al. 2024. “ASSISTGUI：面向任务的桌面图形用户界面自动化。” https://arxiv.org/abs/2312.13108 .

Gou, Boyu, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, and Yu Su. 2024. “像人类一样导航数字世界：GUI 代理的通用视觉定位。” https://arxiv.org/abs/2410.05243 .

Hong, Wenyi, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, et al. 2024. “CogAgent：适用于 GUI 代理的视觉语言模型。” https://arxiv.org/abs/2312.08914 .

Hu, Siyuan, Mingyu Ouyang, Difei Gao, and Mike Zheng Shou. 2024. “GUI 代理的曙光：Claude 3.5 计算机使用初步案例研究。” https://arxiv.org/abs/2411.10323 .

Jain, Neel, Avi Schwarzschild, Yuxin Wen, Gowthami Somepalli, John Kirchenbauer, Ping-yeh Chiang, Micah Goldblum, Aniruddha Saha, Jonas Geiping, and Tom Goldstein. 2023. “对抗性攻击对对齐语言模型的基线防御。” https://arxiv.org/abs/2309.00614 .

Kapoor, Raghav, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, and Ruslan Salakhutdinov. 2024. “OmniACT：启用多模态通用自主代理进行桌面和网络操作的数据集和基准。” https://arxiv.org/abs/2402.17553 .

Koh, Jing Yu, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po-Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, and Daniel Fried. 2024. “VisualWebArena：在现实的视觉网络任务中评估多模态代理。” https://arxiv.org/abs/2401.13649 .

Lee, Kenton, Mandar Joshi, Iulia Turc, Hexiang Hu, Fangyu Liu, Julian Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, and Kristina Toutanova. 2023. “Pix2Struct：作为预训练的截图解析以促进视觉语言理解。” https://arxiv.org/abs/2210.03347 .

Liao, Zeyi, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, and Huan Sun. 2024. “EIA：针对隐私泄露的通用网络代理环境注入攻击。” https://arxiv.org/abs/2409.11295 .

Lin, Kevin Qinghong, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, and Mike Zheng Shou. 2024. “ShowUI：一个用于 GUI 视觉代理的视觉语言动作模型。” https://arxiv.org/abs/2411.17465 .

Lù, Xing Han, Zdeněk Kasner, and Siva Reddy. 2024. “WebLINX：使用多回合对话进行真实世界网站导航。” https://arxiv.org/abs/2402.05930 .

Ma, Xinbei, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, and Hai Zhao. 2024. “警惕环境：多模态代理容易受到环境干扰。” https://arxiv.org/abs/2408.02544 .

OpenAI. 2024. “提示缓存。” https://platform.openai.com/docs/guides/prompt-caching .

OpenAI, Josh Achiam, 等. 2024. “GPT-4 技术报告。” https://arxiv.org/abs/2303.08774 .

Phute, Mansi, Alec Helbling, Matthew Hull, ShengYun Peng, Sebastian Szyller, Cory Cornelius, and Duen Horng Chau. 2024. “LLM 自我防御：通过自我检查，LLM 知道自己正在被欺骗。” https://arxiv.org/abs/2308.07308 .

Putta, Pranav, Edmund Mills, Naman Garg, Sumeet Motwani, Chelsea Finn, Divyansh Garg, and Rafael Rafailov. 2024. “Agent q：高级推理和学习的自主 AI 代理。” https://arxiv.org/abs/2408.07199 .

Verma, Gaurav, Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Tucker Balch, and Manuela Veloso. 2024. “AdaptAgent：通过从人类演示中进行少量学习来适应多模态网络代理。” https://arxiv.org/abs/2411.13451 .

Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. 2023. “链式思维提示法在大型语言模型中激发推理。” https://arxiv.org/abs/2201.11903 .

Wu, Chen Henry, Rishi Shah, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, and Aditi Raghunathan. 2024. “剖析多模态 LM 代理的对抗鲁棒性。” https://arxiv.org/abs/2406.12814 .

Xhonneux, Sophie, Alessandro Sordoni, Stephan Günnemann, Gauthier Gidel, and Leo Schwinn. 2024. “LLM 中高效的对抗训练与连续攻击。” https://arxiv.org/abs/2405.15589 .

Xu, Chejian, Mintong Kang, Jiawei Zhang, Zeyi Liao, Lingbo Mo, Mengqi Yuan, Huan Sun, and Bo Li. 2024. “AdvWeb：可控的黑盒攻击 VLM 动力网络代理。” https://arxiv.org/abs/2410.17401 .

Yan, An, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, 等. 2023. “GPT-4V 在仙境中：大型多模态模型用于零样本智能手机 GUI 导航。” https://arxiv.org/abs/2311.07562 .

Yang, Jianwei, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, and Jianfeng Gao. 2023. “Set-of-Mark 提示释放 GPT-4V 的非凡视觉定位能力。” https://arxiv.org/abs/2310.11441 .

Yang, Wenkai, Xiaohan Bi, Yankai Lin, Sishuo Chen, Jie Zhou, and Xu Sun. 2024. “注意你的代理！调查基于 LLM 的代理的后门威胁。” https://arxiv.org/abs/2402.11208 .

Yao, Shunyu, Howard Chen, John Yang, and Karthik Narasimhan. 2023. “WebShop：通过接地语言代理实现可扩展的真实世界网络交互。” https://arxiv.org/abs/2207.01206 .

Zhang, Yanzhe, Tao Yu, and Diyi Yang. 2024. “通过弹出窗口攻击视觉语言计算机代理。” https://arxiv.org/abs/2411.02391 .

Zhang, Ziniu, Shulin Tian, Liangyu Chen, and Ziwei Liu. 2024. “MMInA：多跳多模态互联网代理基准。” https://arxiv.org/abs/2404.09992 .

Zheng, Boyuan, Boyu Gou, Jihyung Kil, Huan Sun, and Yu Su. 2024. “GPT-4V(ision) 是一个通用的网络代理，如果被定位的话。” https://arxiv.org/abs/2401.01614 .

Zhou, Shuyan, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, 等 al. 周, 露妍, 郝朱, 许辉周, 成显轶, 等. ------

原论文：https://arxiv.org/pdf/2503.0924