大模型智能体的现状、协同范式、安全威胁、未来趋势
文章题目:Large Model Based Agents: State-of-the-Art, Cooperation Paradigms, Security and Privacy, and Future Trends
作者:Yuntao Wang, Yanghe Pan, Zhou Su, Yi Deng, Quan Zhao, Linkang Du, Tom H. Luan, Jiawen Kang, Dusit Niyato
文章链接:https://arxiv.org/abs/2409.14457
随着ChatGPT等大模型技术的飞速发展,基于大模型的通用智能体的开发已成为现实。可以预见,在不久的将来,大模型驱动的通用AI智能体将作为日常生活和工业生产中的重要工具,具备无需人工干预的自主通信与协同能力。本文探讨了未来大模型智能体自主协同的应用场景,回顾了当前大模型智能体的发展现状、支撑其协同的关键技术,以及协同过程中面临的安全与隐私挑战。
为此,本文首先研究了大模型智能体的基础原理,包括其通用架构、关键组件、支撑技术及典型应用。随后,从云边端协同和数据、计算以及知识的视角讨论了实现大模型智能体互联智能的实际协作范式。接着,本文分析了大模型智能体在多智能体设置中的安全漏洞和隐私风险,深入探讨了其内在机制,并回顾了现有及潜在的应对措施。最后,本文提出了构建稳健且安全的大模型智能体生态系统的未来研究方向。
一、大模型智能体概述
1.什么是智能体(AI Agents或agentic AI)
在20世纪50年代,阿兰·图灵提出了图灵测试,用于评估机器是否能够展现出与人类相当的智能。这些人工实体被称为AI Agents,指具有自主能力的AI实体,能够理解并响应人类输入、感知环境、做出决策并采取行动,以实现特定目标。AI智能体既可以是软件,也可以是物理实体,既可以独立运行,也可以与人类或其他智能体协作。典型的AI智能体包括DeepBlue、AlphaGo和AlphaZero等。过去关于AI智能体的研究主要集中在掌握符号推理等特定的专业技能,或仅能围棋或象棋等特定任务上表现优异。
2.什么是大模型智能体(Large Model Agents 或 Agentic Large Models)
大模型主要包括OpenAI的GPT-4、Google的Pa大模型 2和Microsoft Copilot等大语言模型(LLM),以及DALL-E 2等大视觉模型(LVM)。基于大模型的AI智能体显著增强了AI系统解决通用任务的能力,为下一代智能体发展提供了坚实基础。作为智能体的“大脑”,大模型赋予其在人机交互、少样本/零样本规划、上下文理解、知识学习和通用任务解决等方面的能力,能够在物理、虚拟或混合现实环境中执行任务。
大模型智能体通常分为两类:
- 软件型大模型智能体:如AutoGPT和AutoGen,能够自主解读人类指令并使用多种工具(如搜索引擎和外部API)收集信息并完成复杂任务。图(a)展示了一种基于大模型的虚拟助手,它可以生成个性化旅行计划、设置提醒、管理任务,并在动态环境中持续学习和适应。
- 具身型大模型智能体:如FigureAI的Figure 02和Tesla的Optimus,可以与物理世界直接交互。这类智能体能够感知和操作周围环境,从而解决现实世界的问题。图(b)展示了一种基于大模型的家用机器人,它可以分析房间布局、表面类型和障碍物,以制定定制化清洁策略,而非仅仅执行通用指令。
大模型智能体被认为大模型2.0的关键,是迈向人工通用智能(AGI)的重要一步,已广泛应用于网页搜索、推荐系统、虚拟助手、元宇宙游戏、机器人技术、自动驾驶和自动化渗透攻击等领域。
3.大模型智能体相关标准
- IEEE SA-P3394标准于2023年推出,旨在定义自然语言界面以增强LLM应用、智能体和人类用户之间的沟通。该标准制定了一系列协议和指南,用于促进APP、智能体与LLM系统之间的无缝高效交互。这些协议和指南涵盖但不限于API的语法和语义、语音与文本格式、对话流程、提示工程集成、LLM思维链集成,以及API端点配置、认证与授权等内容。
- IEEE SA-P3428标准同样于2023年推出,旨在制定教育应用中LLM智能体的相关标准。主要目标是确保LLM智能体在开源和专有系统之间的互操作性。重点领域包括LLM与现有教育系统和其他AI组件(如自适应教学系统)的集成,以及应对教育场景中的偏见、透明性和问责性问题。
4.大模型智能体操作系统
大模型智能体的操作系统架构包括三个层次设计:
- 应用层:承载智能体应用,并提供一个SDK以抽象系统调用,简化智能体开发。
- 内核层:包括普通操作系统内核和一个额外的大模型智能体内核,且无需更改原有操作系统结构。
- 硬件层:包括物理资源(如CPU、GPU、内存等),这些资源通过操作系统系统调用间接管理,而大模型智能体内核不直接与硬件交互。
5.大模型智能体组成模块
大模型智能体通常由五个关键模块组成:规划、行动、记忆、交互和安全,共同构成一个连贯且智能的系统。
- 规划模块:规划模块是大模型智能体的核心,利用高级推理技术设计有效的解决方案以应对复杂问题,包括无反馈规划、有反馈规划、多角色自我规划和基于实际场景的规划等。
- 记忆模块:记忆模块支持智能体随时间学习和适应的能力,包括短期记忆、长期记忆以及混合记忆。此外,检索增强生成(RAG)技术可用于访问外部知识源和本地经验库以进一步提升决策可信性和最新性。
- 行动模块:行动模块使大模型智能体能够在各种环境中执行并调