智能体5级分类:从规则到大语言模型

摘要:智能体被定义为能够感知环境、做出决策并采取行动的人工实体。受汽车工程师协会(SAE)自动驾驶六级分类的启发,智能体也根据其功能和能力被划分为以下层级:L0——无 AI,具备工具(有感知能力)和行动;L1——使用基于规则的 AI;L2——用基于模仿学习(IL)/强化学习(RL)的 AI 替代基于规则的 AI,增加推理和决策能力;L3——应用基于大型语言模型(LLM)的AI 替代基于 IL/RL 的 AI,并设置记忆和反思功能;L4——在 L3 的基础上,实现自主学习和泛化能力;L5——在 L4 的基础上,增加个性(情感 + 性格)和协作行为(多智能体)。

1. 引言

任何能够感知其环境并执行行动的实体都可以被视为智能体。智能体可以分为五种类型:简单反射智能体、基于模型的反射智能体、基于目标的智能体、基于效用的智能体和学习智能体。

随着人工智能的发展,“智能体”一词被用来描述表现出智能行为并具备自主性、反应性、主动性以及社交互动能力的实体。20 世纪 50 年代,艾伦·图灵提出了著名的图灵测试,它是人工智能的基石,旨在探索机器是否能够展现出与人类相当的智能行为。这些人工智能实体通常被称为“智能体”,构成了人工智能系统的基本构建块。

基础模型在自然语言处理(NLP)领域得到了最强烈的体现。从技术层面来看,基础模型通过迁移学习和规模得以实现。迁移学习的理念是从一个任务中学习到的“知识”并将其应用于另一个任务。基础模型通常遵循这样的范式:模型在一个替代任务上进行预训练,然后通过微调适应到感兴趣的下游任务。

最近出现的大多数大语言模型(LLMs)都属于或基于基础模型。由于最近展现出的显著能力,大语言模型被视为人工智能向人工通用智能(AGI)渗透的潜在途径,为构建通用智能体带来了希望。

智能体主要指能够使用传感器感知周围环境并通过执行器做出决策和采取行动的人工实体。根据“世界范围”(WS)的概念,它通过涵盖从 NLP 到通用人工智能的五个层级(即语料库、互联网、感知、具身和社交)来衡量 NLP 的进展,纯基于大语言模型的智能体仅建立在书面互联网世界的第二层级。

除此之外,大语言模型在知识获取、指令解释、泛化、规划和推理方面展现出卓越的能力,同时能够以自然语言与人类进行互动。从这一现状来看,通过扩展感知空间和行动空间的大语言模型辅助智能体,有潜力达到世界范围的第三和第四层级,即感知人工智能和具身人工智能。

img

此外,这些基于大语言模型的智能体可以通过协作或游戏处理更复杂的任务,并且可以产生社交现象,从而实现世界范围的第五层级,即社交世界。

2. 大语言模型(LLMs)

大语言模型是基于 Transformer 的语言模型类别,其特征是拥有极其庞大的参数数量,通常达到数百亿甚至更多。这些模型在大规模文本数据集上进行训练,使其能够理解自然语言并执行一系列复杂的任务,主要通过文本生成和理解来实现。一些知名的大语言模型包括 GPT3/4、PaLM、OPT 和 LLaMA1/2。

大量研究表明,规模的扩大可以显著提升大语言模型的模型容量。因此,建立一种量化方法来表征规模效应是很有用的。对于 Transformer 语言模型,有两种具有代表性的规模化定律(Scalling Law):一种来自OpenAI,另一种来自 Google DeepMind。

传统的“预训练 + 微调”流程被另一种称为“预训练 + 提示词 + 预测”的流程所取代。在这种范式中,不是通过目标工程将预训练的语言模型适应下游任务,而是通过文本提示词将下游任务重新表述得更像原始语言模型训练时解决的任务。

img

通过选择适当的提示词,可以操纵模型行为,使预训练的语言模型本身能够用于预测期望的输出,有时甚至无需任何额外的任务特定训练。提示词工程通过找到最适合的大语言模型解决手头任务的提示词来工作。

大语言模型的涌现能力是其与小型语言模型最显著的区别之一。具体来说,在上下文学习(ICL)、遵循指令和思维链(CoT)是大语言模型的三种典型涌现能力。

参数高效微调(PEFT)是用于将预训练语言模型(LLMs)适应特定下游应用的关键技术。PEFT 可以分为基于添加、基于选择/规范或基于重新参数化的技术。它只需要微调一小部分参数,便于边缘设备使用,并且可以有效缓解灾难性遗忘问题。

由于大语言模型是通过预训练语料库(包括高质量和低质量数据)来捕捉数据特征进行训练的,因此它们可能会生成对人类有毒、有偏见甚至有害的内容。因此,有必要使大语言模型与人类价值观保持一致,例如有益、诚实和无害。**基于人类反馈的强化学习(RLHF)**已成为微调大语言模型系统以更紧密地符合人类偏好的关键策略。

受大语言模型潜力的激励,提出了许多多模态大模型(MLLMs),以将大语言模型扩展到多模态领域,即感知图像/视频输入,并与用户进行多轮对话。在大规模图像/视频-文本对上进行预训练,视觉-语言模型只能处理图像级任务,如图像描述和问答。

基于强大的预训练大模型权重,多模态大模型旨在处理多种类型的输入,而不仅仅是文本。多模态大模型已被广泛应用于各种任务,如图像理解、视频理解、医学诊断和具身人工智能等。

人们认为大语言模型具备类似人类的智能和常识,有潜力使我们更接近人工通用智能(AGI)领域。大语言模型的出现可能是知识驱动型智能体的里程碑,这些智能体能够感知环境并积累知识。

3. 智能体

智能体能够根据其训练和输入数据进行理解、预测和响应。当这些能力不断发展和提升时,了解它们的局限性以及它们所训练数据的影响至关重要。智能体系统具备以下能力:1)感知和预测建模;2)规划和决策制定;3)自我学习和持续改进;4)执行和互动;5)个性化和协作。

img

具身智能/人工智能的目标是构建能够通过与环境的互动来学习解决任务的智能体,例如机器人。

对于智能体来说,一种有效的学习行动的方法是通过与环境的互动来进行试错体验。在物理环境中进行训练通常是不可行的,因此使用模拟器来学习策略是一种常见的方法。

符号AI应用逻辑规则和符号表示来封装知识并促进推理过程,其中关键问题是转导和表示/推理。一个经典例子是基于知识的专家系统。符号AI智能体在处理不确定性和大规模问题时面临局限性。它们主要依赖于固定的算法或规则集,在它们被设计的任务中表现良好。然而,当面对**分布外(OOD)**任务时,它们往往难以进行泛化和推理。

基于强化学习(RL)的智能体通过与环境的互动进行基于累积奖励的学习,以处理更复杂的任务。一个例子是采用 Q 学习的 AlphaGo。然而,RL的问题在于训练时间长、样本效率低以及在现实世界环境中的稳定性问题。

知识智能体可以利用隐式或显式知识。隐式知识通常是大语言模型封装的知识,而显式知识则是结构化的,可以通过查询来生成响应。将隐式和显式知识结合起来,使智能体能够像人类智能一样在上下文中应用知识。

基于大语言模型的智能体将大语言模型作为大脑或控制器的主要组成部分,并通过多模态感知和工具利用等策略扩展其感知和行动空间。它们可以通过思维链(CoT)和任务拆分等技术实现推理和规划能力。

大语言模型的出现给智能体设计带来了重大变化。这些基于大语言模型的智能体不仅擅长理解和生成自然语言,而且在泛化方面表现出色。这种能力使它们能够轻松地与各种工具集成,增强其多功能性。另一方面,大语言模型的涌现能力在推理方面显示出优势。

基于预训练知识的 LLM 智能体即使没有特定任务的训练,也倾向于采用决策策略。另一方面,RL 智能体通常需要从头开始训练以处理未见情况,通过互动来学习。

基于大模型的智能体可以相互互动,从而产生社交现象。在基于大模型的多智能体系统(MAS)中,智能体参与协作、竞争或层级平台以执行任务。这些任务可以从搜索和优化、决策制定、资源分配到协作控制不等。

智能体之间的关系决定了它们之间的互动和合作状态。情感推理和同理心是智能体在许多人机互动中需要具备的重要技能。

4. 智能体的层级

基于能力的广度(通用性)和深度(性能),在文献 [28] 中给出了一个矩阵方法来对 AGI 进行分类,如表 1 所示。

表 1. AGI 的层级

img

**性能(Performance)**衡量 AGI 在给定任务上与人类水平性能的比较。**通用性(Generality)**衡量 AI 达到目标性能阈值的任务范围。性能和/或通用性层级之间的进展速率可能是非线性的。个体LLM 智能体所需的特征需要不同种类的能力。受汽车工程师协会(SAE)给出的自动驾驶六级分类的启发,个体LLM 智能体的智能层级被划分为从 L1 到 L5 的五个层级。每个层级的关键特征和代表性用例如表 2 所示。

表 2. 个体LLM 智能体的层级 [35]

img

在本文中,智能体的层级是根据其功能和能力的强度来定义的。

4.1 工具(感知 + 行动)

各种外部工具支持智能体更丰富的行动能力,包括 API、知识库、视觉编码模型和语言模型,使智能体能够适应环境变化,提供互动和反馈,甚至影响环境。工具执行可以反映智能体的复杂需求,并增强其决策的可信度。行动模块旨在将智能体的决策转化为具体结果。它与环境互动并获得反馈,从而决定智能体在实现任务方面的有效性。人类与环境的有效互动可以使智能体验证其行动结果。

img

行动部分可包括感知模块、低级运动规划器和控制器,特别是在机器人和自动驾驶领域。特别是,感知模块就像人类的感觉系统(眼睛和耳朵),感知环境的变化,然后将多模态信息转换为统一的表示形式供智能体使用。如果智能体配备了记忆模块,记忆回忆可以作为一种行动策略,使智能体能够基于存储在记忆模块中的经验做出决策。智能体可以利用多轮对话来确定适当的响应作为行动,特别是对于聊天智能体的对话目的。行动的后果可能包括环境的变化、智能体内部状态的变化、触发新行动以及在人机互动场景中对人类感知的影响。

4.2 推理与决策制定

推理是人类智能的核心,是解决问题、决策制定或规划以及批判性分析的基础。演绎、归纳和溯因是推理的主要形式。

传统推理主要依赖于符号方法或模仿/强化学习方法。然而,观察到这些方法存在一些缺点。符号方法需要将用自然语言描述的问题转化为规则,这可能需要人工帮助。通常,这种方法对错误比较敏感。模仿学习(IL)和强化学习(RL)方法通常与深度神经模型结合,作为策略网络、价值函数或奖励模型。然而,RL 方法需要大量的样本(与环境的互动),而 IL 算法难以处理未见场景。

对于基于大语言模型的智能体来说,推理就像人类一样,对于解决复杂任务至关重要。它们可能在预训练或微调期间具备推理能力,或者在达到一定规模大小后出现。

任务分解是智能体中最主要的规划形式。它侧重于将任务拆分为更小的子任务,并为这些子任务制定具体计划。任务分解的关键在于确保创建的子任务与原始任务之间存在强相关性。

理想情况下,子任务应该是相互独立的。这使得可以为每个子任务创建提示词和上下文,从而通过将故障隔离到特定子任务来简化故障排除。

思维链(CoT)是大语言模型中的代表性推理方法,它通过在提示词中使用少量语言示例逐步解决复杂的推理问题。通过将复杂任务分解为可执行的子任务,大语言模型的计划和决策能力得到了显著提升。

思维链(CoT)的扩展包括思维树(ToT)和思维图(GoT),假设人类倾向于以树状或图状的方式进行思考。这种多路径思维方式进一步赋予了智能体解决更复杂规划任务的能力。

推理通过规划或决策制定来实现。规划模块使基于大语言模型的智能体具备了推理和计划以解决任务的能力,无论是否有反馈。与传统智能体调用 Dijkstra 和 POMDP 等规划方法以在环境中获得最佳行动和计划不同,基于 RL 的智能体需要学习策略。基于大语言模型的智能体从大语言模型中实现其规划能力。此外,大语言模型在意图理解等方面显示出显著潜力。

基于大语言模型的智能体可能会因为提示词而无法获得正确的知识,甚至可能面临幻觉问题。专门的工具可以使大语言模型提升其专业知识并适应领域知识。基于大语言模型的智能体的决策制定过程缺乏透明度,在高风险领域不太可靠。此外,大语言模型对对抗攻击的容忍度较低。

通过仅使用少量数据进行微调来利用预训练模型的力量,大语言模型在下游任务中可以表现出更强的性能。大语言模型不仅仅是一个固定的知识库,基于大语言模型的智能体展示了适应新任务的能力。经过指令微调的大语言模型展示了无需针对特定任务进行微调的零样本泛化能力。大语言模型可以通过遵循指令来执行在训练阶段未出现的新任务。

少样本上下文学习(ICL)通过将原始输入与少量示例结合作为提示词来增强上下文,从而提升大语言模型的预测性能。

img

为了模拟人类基于反馈体验的能力,规划模块可以设计为接收来自环境、人类和模型的反馈,以提升基于大语言模型的智能体的规划能力。外部反馈作为规划成功或失败的直接评估,构建了一个闭环规划。

4.3 记忆 + 反思

记忆模块在智能体中起着关键作用。它存储从环境感知中提取的信息,并将存储的记忆应用于促进未来的行动。记忆模块可以帮助智能体收集经验,自我学习,并以更合理、更有效的方式行动。

img

短期记忆保持并保存决策过程中相关的符号信息,确保其可访问性。长期记忆积累早期决策过程中的经验,包括历史事件流程、用户与智能体之间的交互信息或其他形式的智能体经验。

反思模块旨在使智能体具备压缩和推导更高级信息的能力,或者自主验证和验证其行动。它帮助智能体解释属性、偏好、目标和联系,从而监督其行为。它表现出多种形式:(1)自我总结。(2)自我验证。(3)自我修正。(4)共情。

知识图谱和检索增强生成(RAG)可以是记忆机制的附加模块。知识图谱将来自多个来源的数据转化为基于图的实体模型、它们的属性以及它们之间的关系。通过添加新数据丰富图谱,可以发现模式和隐藏的关系。为了确保由LLM 驱动的智能体能够以准确、相关的方式响应,RAG用于为 LLM 提供来自用户手册或支持文档的领域特定知识。

借助 LLM 的智能体利用内部反馈机制,通常从现有模型中获得见解,以完善和提升规划方法。它们可能从真实或虚拟环境中获得反馈,例如来自任务完成或行动响应的线索,帮助它们修订和完善策略。

4.4 泛化与自主学习

少样本上下文学习(ICL)通过将原始输入与几个示例连接起来作为提示词,增强上下文,从而提高大语言模型的预测能力,其核心思想类似于人类的学习过程。

经过指令微调的大语言模型展示了无需对特定任务进行微调的零样本泛化能力。提示词对于合理的预测至关重要,直接在提示词上进行训练可以增强模型对未见任务的鲁棒性。通过扩大模型规模和训练指令的多样性,可以进一步提高泛化水平。

智能体需要将用户在特定情境中学习到的工具使用技能泛化到新情境中,例如从雅虎搜索训练的模型转移到谷歌搜索。

img

如果提供指令和演示,基于大语言模型的智能体还具备通过生成可执行程序构建工具、将现有工具整合为更强大的工具,或者进行自我调试的能力。PaLM-E 展示了对新对象或现有对象组合的零样本或单样本泛化能力。Voyager 利用技能库组件持续收集新的自验证技能,支持智能体的终身学习能力。基于大语言模型的智能体利用大语言模型的规划能力,通过持续学习(如课程学习)将现有技能结合起来,应对更具挑战性的任务,同时避免灾难性遗忘。

4.5 个性(情感 + 性格)和协作行为(多智能体)

正如人类个性是通过社会化形成的,智能体也通过与其他智能体和环境的互动展现出一种个性。个性的定义包括三个特征:认知、情感和性格。

img

沟通和协作是基于大语言模型的多智能体的基础。在基于大语言模型的多智能体系统中有四种典型的通信结构。分层通信按层级制定,每一层的智能体扮演不同角色,并在层内或层间进行互动。去中心化通信在点对点(P2P)网络上运行,智能体直接相互通信,这种结构通常用于世界模拟应用。集中式通信涉及一个中央智能体或一组中央智能体协调系统的通信,其他智能体主要通过这个中心节点进行互动。共享消息池可以通过维护一个共享消息池来提高通信效率,智能体根据其配置文件发布和订阅相关消息,从而提高通信效率。

协作和协调方法可以分为辩论式、投票式和角色式。在辩论式方式中,每个智能体生成自己的初始响应,随后智能体之间开始一轮辩论。在投票式方式中,智能体首先针对用户的提示词生成候选响应,然后进行投票,其中不同的反思性建议作为选择呈现。在角色式方式中,智能体-规划者可以生成多步骤计划,智能体-分配者可以协调任务分配,而其他任务可以根据其能力和专业知识分配给特定的智能体-工作者

认知能力通常被定义为获取知识的心理过程,例如决策制定或规划以及问题解决。情感包括主观情绪,如愤怒或喜悦。基于 LLM 的智能体对情感有详细的理解。

性格模式的狭窄概念属于个性。大语言模型的提示词工程涉及对性格模式或其他属性的简洁总结。通过接触富含个性的数据集,基于大语言模型的智能体被赋予了个性描绘能力。

在社交环境中,智能体应该与其他智能体或人类合作或竞争,以激发更好的性能。智能体可能被提供复杂的任务以共同工作,或与环境互动。集体智能是一个过程,其中意见被集中到决策中。它来自智能体之间的合作和竞争,出现在基于共识的决策模式中。通过利用智能体社会内的沟通,可以模拟人类社会的演变并获得见解。

4.6 智能体的层级

最后,智能体的层级在表 3 中定义。

表 3. 智能体的层级

img

5. 结论

本文根据功能和能力的强度对智能体的层级进行了分类,类似于汽车工程师协会对自动驾驶的自动化层级分类。对于每个层级,前一个层级的额外模块可以提供更强的人工智能能力和智能体功能。从 0 级到 3 级,人工智能核心从无人工智能发展到基于规则的人工智能,再到基于模仿学习(IL)/强化学习(RL)的人工智能,最后发展到基于大语言模型(LLM)的人工智能。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值