AI应用落地关键技术 | AI Agent:什么是 AI Agent?AI Agent 的关键能力要素

一、什么是 AI Agent?

第一、用快思考与慢思考类比大模型的能力

根据丹尼尔·卡尼曼的著作《思考,快与慢》,人类的思维可以分为两大系统:系统1和系统2。系统1负责直觉式的快速思考,这种思考往往是无意识的;而系统2则擅长进行有意识的逻辑推理和主动控制。

在探讨大型模型的思维能力时,我们首先可以观察到,这些大模型可能具备了类似人类的分析问题能力,它们能够理解、分析和解决复杂问题。进一步地,人类与动物的一个重要区别在于人类擅长创造和使用工具。随着大模型认知能力的不断提升,当它们遇到自身不擅长的领域时,这些大模型可能会展现出一种类似于人脑使用工具的能力——即寻找并利用适当的工具来解决问题,而不是直接依靠自身能力去解决。

第二、OpenAI 对 AI Agent 的定义

在2023年6月,Open AI 的应用研究主管 Lilian Weng发 表了《LLM Powered Autonomous Agents》一文,其中她提出了一个公式:“智能体=大模型(LLMs)+规划(Planning)+记忆(Memory)+工具使用(Tools)”。

1)智能体的推理与执行能力,指的是利用大模型(LLMs)来理解、执行并回顾任务。这包括将复杂任务分解为更小、更易管理的子任务以提高效率,并且通过吸取历史经验和错误教训来优化行动的质量。

2)智能体具备短期与长期记忆功能:短期记忆通过利用提示(Prompt)中的信息和上下文数据进行学习,而长期记忆则通过外部向量存储和快速检索技术来实现,这使得智能体能够在更广泛的时间跨度内存储和回忆(理论上无限)信息。

3)智能体具有调用外部 API 来使用“工具”的能力,这包括浏览网页、启动应用程序、读写文件、进行支付甚至操控用户设备等。与传统的自动化工具不同,AI智能体能够在未知和不可预测的新环境中有效工作。

4)在Open AI 的定义基础上,还应补充智能体的反馈接受能力。正如人类在处理复杂任务时需要与环境互动,我们的行为会改变环境,环境也会给予我们反馈,我们根据这些反馈进行决策。因此,智能体应该能够根据采取的行动接收正面或试错性的反馈、阶段性成果或奖励,并据此进行下一轮的规划和行动。

第三、AI Agent 更广泛的定义

在 AI Agent 的整体架构设计中,一般可以将框架划分为五个主要模块:感知、定义、记忆、规划和行动。

  • 感知模块:这一部分主要负责处理各种输入信息,确保智能体能够与环境进行有效的交互。

  • 定义模块:该模块包含了智能体的特性、目标和其他相关属性信息。

  • 记忆模块:涵盖了短期和长期记忆,它为智能体在处理复杂任务时提供历史数据和策略支持。

  • 规划模块:涉及任务分解、反思、推理、策略制定等,是智能体的决策中心,类似于大脑的功能。

  • 行动模块:负责以文本、实体动作、工具指令等多种方式输出智能体的决策结果。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

二、AI Agent 的关键能力要素

第一、记忆能力

目前的研究普遍将记忆分为短期记忆和长期记忆两大类。

  • -短期记忆主要依赖于上下文学习,但受到 Transformer 模型上下文窗口大小的限制。

  • 长期记忆则更加广泛地应用于任务中,它涉及对世界的宏观和抽象理解。这包括存储生产系统的过程记忆、关于世界事实的语义记忆,以及代理过去行为序列的情节记忆。长期记忆通过参数知识存储(模型训练)和非参数知识存储(外部搜索)来实现。

  • 对于超出常规上下文范围的长期记忆,学术界探索了两条路径:一条是扩展上下文,即将上下文支持扩展到100K甚至无限大;另一条是利用 RAG 和信息压缩技术,即对输入信息进行总结和压缩存储,仅在需要时提取相关记忆。

  • 扩展上下文的方案相对简单,依赖于算力的提升和成本的降低,但目前的成本仍然较高。

  • RAG 技术则是搜索相关信息片段,并将搜索结果融入大模型的上下文中,以便大模型基于这些结果回答问题。

  • 信息压缩则是对信息进行总结,最基本的方法是文本总结,更高级的方法是使用指令访问外部存储,或者在模型层面使用 Embedding 技术进行总结。

第二、规划能力

规划是 AI Agent 解决复杂问题的关键能力,主要包括子目标分解、反思和提炼等。

  • 子目标分解:通过思维链(CoT)技术,将大任务分解为多个更易管理的子任务,并为大模型的思维过程提供解释线索。思维树技术则通过在每一步探索多种推理可能性来扩展 CoT,创建一个树状结构的思考过程。

  • 反思提炼:ReAct 技术通过将动作空间扩展为特定任务的离散动作和语言空间的组合,将推理和动作整合到 LLM中。Reflexion 框架则为智能体提供了动态记忆和自我反思的能力,以提高推理技能。

  • ReAct 方法能够发挥 LLM 的推理能力,通过交错生成推理轨迹和任务特定的操作,实现推理与操作的协同。尽管存在一些局限性,如解决复杂问题的能力有限、成本不可控等,但它仍然是提升AI智能体能力的重要途径。

第三、行动能力

智能体的行动能力主要体现在文本输出、工具使用和具身动作等方面。

  • 在工具使用方面,智能体主要通过微调或预设模型描述框架来调用外部API,实现对现有功能的使用或特定信息的访问。未来,随着模型能力的提升,智能体可能能够创造新工具。

  • 如何让大模型学会按需使用工具?有两种观点:一种认为工具使用是过程记忆,需要通过 Fine-tuning 方法教授模型工具使用的样例;另一种认为工具使用是代码生成能力,可以通过 RAG 方法匹配工具并使用。

第四、减少幻觉

减少幻觉主要依赖于基础模型的进步和 Scaling Law,同时也有工程方法可以减少现有模型的幻觉。

  • 事实性校验:首先使用大模型生成回答,然后通过 RAG 方法找到与回答内容匹配的原始语料,最后让大模型判断回答的准确性。

  • 多次生成:论文 SelfCheckGPT 提出的多次生成方法,通过多次生成同一问题的回答并让大模型挑选最一致的回答,以减少偶发的幻觉问题,但无法解决系统性偏差。


三、AI Agent 发展的三个阶段

1、AI Agent 能力的三个发展阶段

  1. Embedding 嵌入式模式:这一阶段主要依赖于人类问答,提供信息和建议,这是目前最普遍的大模型(LLM)应用方式。

  2. Copilot 辅助驾驶模式:在这一阶段,Agent 基于人类设定的目标,完成单一或简单任务。

  3. Agent 智能体模式:智能体在这一阶段能够基于人类的目标,执行多任务、复杂任务或任务组合。

2、ChatGPT 代表了第一阶段的大模型能力。它并不完全符合 Agent 的典型定义,主要向用户提供广泛的世界知识。

3、目前,单一任务场景下已有一些 AI 应用实例

在办公场景中,我们有 Microsoft 365 Copilot(及其新推出的个人版 Copilot Pro)、Google Duet AI、专注于轻文档办公的 Notion AI、辅助代码开发的 Copilot X 以及数据分析处理的 Deepnote AI 等。这些应用常见的功能包括起草文档、内容汇总、提供公式建议等,它们通常以侧边栏或对话框的形式出现,帮助用户自动调用工作空间中的文件和信息,并进行处理生成。

4、展望未来,AI Agent 将不仅仅局限于解决问题的执行层面,而是将进一步深入到如何解决问题的规划层面。

在工作场景中,我们对 AI Agent 的期待包括:

  1. 连续执行:Agent 能够对用户的任务指令进行拆解,分解为多个步骤,对这些步骤进行规划排序并连续执行。

  2. 完成复杂任务:目前 Agent 只能解决单个或少数简单任务,未来期望能够处理多个复杂任务。

  3. 多步骤规划:Agent 在执行后续步骤的同时,能够保持对任务目标和前序任务的记忆,具备强大的步骤规划执行能力。


四、最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值