AI Agent真的安全吗？南洋理工最新综述揭秘LLM Agent安全风险与防御策略

最新推荐文章于 2025-04-25 15:24:01 发布

PaperWeekly

最新推荐文章于 2025-04-25 15:24:01 发布

阅读量185

点赞数

文章标签：人工智能安全

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247701489&idx=3&sn=95a85da89e3992426b486c209a3bd3e4&chksm=979cd709358c434e230a92d17495f92ff7fa68b9cedfc72edc9541d21adea12f1d61b2913c28&scene=126&sessionid=0

版权

概述

随着大型语言模型（LLMs）驱动的 Agent 和多 Agent 系统（MAS）的快速发展，Agent 的安全问题日益受到关注。然而，现有研究在系统性方面仍有提升空间。

为应对这一挑战，来自南洋理工大学、松鼠AI的研究团队近期发布了 TrustAgent Survey。该研究并非旨在面面俱到地覆盖所有 Agent 安全研究领域，而是聚焦于凝练 Agent 安全的模块化体系架构。研究团队精选了近期具有代表性的文献，并尝试构建一份关于 Agent 安全的系统性参考。

论文标题：

A Survey on Trustworthy LLM Agents: Threats and Countermeasures

论文地址：

https://arxiv.org/abs/2503.09648

GitHub 主页：

https://github.com/Ymm-cll/TrustAgent

TrustAgent Survey 的价值

TrustAgent Survey 可能为研究者带来以下价值：

✅ 系统性地了解 Agent 安全的框架体系；

✅ 相对高效地掌握 Agent 安全领域的最新进展；

✅ 提供启发，促进未来在相关领域的深入研究工作。

▲ 图1. TrustAgent Survey 与现有 Surveys 的比较

核心贡献

3.1 系统性视角

TrustAgent Survey 从“模块化角度”出发，将 Agent 系统拆解为内部模块（Brain, Memory, Tool）和外部模块（User, Agent, Environment），梳理各模块面临的安全风险和现有应对策略。

通过深入研究和总结新出现的针对代理和多智能体系统的攻击、防御和评估方法，TrustAgent Survey 将可信 LLM 的概念扩展到可信 Agent 的新兴范式。

▲ 图2. TrustAgent Survey 分类法概述

TrustAgent Survey 中的分类法具有以下特点：

模块化：严格根据代理的内部和外部组件对可信度问题进行分类，分为内在（大脑、记忆、工具）和外在（用户、其他代理、环境）两个方面。

技术性：专注于可信代理的实现，从攻击、防御和评估三个方面对相关技术栈进行了全面的总结和展望。

多维性：将 LLM 可信度的维度扩展到单代理和 MAS 的上下文中，具体分为安全性、隐私性、真实性、公平性和鲁棒性，并引用了所有这些维度的现有工作。

3.2 技术框架

TrustAgent Survey 严格根据代理的内部和外部组件对可信度问题进行分类，具体分为内在和外在两个方面：

3.2.1 内生安全

内在可信度关注 Agent 系统内部模块的可信度。在 TrustAgent Survey 的定义中，Agent 系统是一个具有类人认知的独立实体，由具有记忆的大脑和工具形式的行为组成。由于这些模块的功能和性质不同，由此产生的可信度问题也各不相同。

3.2.2 外生安全

外部可信度关注与 Agent 系统交互的外部模块的可信度。在运行过程中，Agent 不断与外部交互，以收集信息或执行决策等。TrustAgent Survey 将与外部模块的交互分为三类：Agent 与 Agent、Agent 与环境和 Agent 与用户。

3.3 精选文献

TrustAgent Survey 侧重于精选近期且具有代表性的 148 篇 Agent 安全研究，希望能帮助读者快速了解领域进展，把握研究脉络。

▲ 图3. TrustAgent Survey 的综合分类

3.4 研究展望

TrustAgent Survey 对每个模块进行了分析和总结，尝试提炼研究展望（Insights）和未来方向，希望能为 Agent 安全研究提供一些参考。

3.4.1 内生安全模块

在内生安全方面，文章指出当前协作攻击可通过单个被攻陷的智能体迅速传播至多个智能体，因此亟需开发协作安全机制，如分布式共识协议，以确保智能体在关键决策前进行集体验证。

同时，针对内存中心攻击方法的局限性，文章强调了在防御层面需从向量数据库端入手，防止有毒样本注入，并通过多轮对抗对话训练提升智能体的鲁棒性。此外，工具调用中的安全性问题也亟待解决，未来研究应关注工具链的多重调用安全与防御机制。

3.4.2 外生安全模块

在外生安全方面，文章揭示了智能体间交互带来的新型威胁——传染性攻击，并建议从自动化攻击、反传播防御及拓扑结构评估等角度展开研究。同时，环境与智能体间的可信交互被忽视，需系统化地设计攻击与防御机制以提升系统安全性。

文章还指出当前评估过于局限于特定领域，未来应开发跨学科、跨领域的安全评估框架，并强调通过自适应信任校准与可解释智能体技术提升用户与智能体间的信任透明度。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧