LLM Agent,即基于大语言模型的智能体,是一种利用大语言模型的能力来感知、推理、决策和执行任务的人工智能系统。LLM Agent可以根据不同的标准进行分类,以下是一些常见的分类方法:
1. 目标驱动 vs. 会话驱动
- 目标驱动型 LLM Agent 旨在完成特定任务,例如生成文本、翻译语言、编写代码、回答问题等。这类 Agent 通常会根据预定义的策略或计划进行操作,并使用 LLM 模型来分析信息、提取关键参数、制定行动方案等。
- 会话驱动型 LLM Agent 则侧重于与用户进行自然语言对话,并提供个性化的互动体验。这类 Agent 通常会使用 LLM 模型来理解用户的意图、生成相应的回复、维持对话上下文等。
2. 感知能力
- 感知能力是指 LLM Agent 从环境中获取信息的能力。根据感知能力的不同,LLM Agent 可以分为以下几种类型:
- 基于文本的 LLM Agent 只能处理文本信息,例如来自对话、文档、代码等。
- 多模态 LLM Agent 除了能够处理文本信息之外,还可以处理图像、音频、视频等多模态信息。
3. 行动能力
- 行动能力是指 LLM Agent 在环境中执行动作的能力。根据行动能力的不同,LLM Agent 可以分为以下几种类型:
- 虚拟 LLM Agent 只能在虚拟环境中执行动作,例如生成文本、翻译语言等。
- 具身 LLM Agent 能够在现实世界中执行动作,例如控制机器人、操作设备等。
4. 自主性
- 自主性是指 LLM Agent 在无需人工干预的情况下执行任务的能力。根据自主性的不同,LLM Agent 可以分为以下几种类型:
- 辅助型 LLM Agent 需要人工干预才能完成任务,例如提供指令、参数等。
- 自主型 LLM Agent 能够自主完成任务,无需人工干预。
5. 其他分类方法
- 除了上述分类方法之外,还可以根据 LLM Agent 的应用领域、技术实现等进行分类。例如,根据应用领域,LLM Agent 可以分为教育、医疗、金融、制造等领域的 Agent;根据技术实现,LLM Agent 可以分为基于深度学习、强化学习、进化算法等技术的 Agent。