一、Agent定义&区别:
1.1 定义
Agent(代理)一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。
在AI领域,被赋予了一层新的含义:具有自主性、反应性、交互性等特征的智能“代理”。能够基于目标和对现状能力的认知,在环境约束中,依赖特定资源和现有工具,找到行动规则并将行动拆解为必要的步骤,自主执行步骤,达成目标。
AI Agent智能体比较难理解,简单点,agent就好比你的私人代理。比如你是一家公司的总经理,那agent就是你的总经理助,你只需要给他设定目标和检查结果,其他都可交给他,他能把复杂流程的干的出色,还帮您分析给出最优建议,并最终向你汇报。
Al Agent 具备三个核心能力:
(1)独立思考: Al Agent 能够根据给定任务目标和约束条件,进行任务规划和问题拆解,形成执行步骤(即工作流);
(2)自主执行:能够调取各类组件和工具,按照执行步骤依次执行,实现任务目标;
(3)持续迭代: AlAgent能够自动记录任务目标、工作流和执行结果,基于结果反馈,沉淀专家知识和案例。
1.2 与Copilot 、LLM、RAG的联系&区别
(1)LLM,
Large Language Model,即 大语言模型,是基于海量文本数据训练的深度学习模型,能够生成自然语言文本、深入理解文本含义,并处理各种自然语言任务,如文本摘要、问答、翻译等。简单理解是语言的逻辑推理,
如我们常见的Chat GPT、文心一言、豆包、Kimi等 Agent 是智能体,LLM就是智能体的“大脑”,核心控制器,能提升AI Agent的理解力和泛化能力,使其能更好地处理多种任务和上下文信息。这增强了AI代理的自然语言处理能力,从而提供更个性化、连贯的交互体验。
AI Agent =LLM x (规划+记忆+工具+行动)
(2)RAG(Retrieval Augmented Generation)
即检索增强生成,通过结合大型语言模型与检索机制,显著提升了生成内容的准确性和相关性。其核心在于利用向量数据库存储和检索大量上下文信息,以辅助生成模型在生成文本时做出更明智的决策。
这种方法不仅提高了生成内容的质量,还增强了模型的解释性和可控性。在大模型时代,由于之前训练好的大模型数据没有跟新,为了解决LLM知识有限的问题,需要把外部的新知识提供给LLM进行学习,让它理解之后表达出来,这时候就需要用到RAG技术,RAG 通过加入外部数据(如本地知识库、实时数据等)来增强 AI 模型的检索和生成能力,提高信息查询增强过程和生成质量。比如:文心一言的插件服务,支持把实时又或者私有化知识提供给LLM。
(3)Copilot Al
Copilot 是微软推出的一款人工智能助手,基于大模型技术的智能化应用,不仅可以聊天,还能搜索、编辑文档,生成图像等,提升工作效率。AI Copilot 基于微软的 Prometheus 模型,该模型基于 OpenAI 的 GPT-4 构建,具备强大的文本生成和数据处理能力.
Copilot 需要人的指挥;Agent则是直接面对目标任务,具有自主记忆、推理、规划和执行的全自动能力,因此终极形态的AI Agent只需要用户的起始指令和结果的反馈,过程中并不需要人的介入。自主性是 Al Agent 和 Al Copilot 之间最大的区别。Al Copilot 是“副驾驶”,只是提供建议而非决策,Al Agent 是“主驾驶”需要真正做出决策并开展行动。
(4)三者的联系
AI Agent 会利用 LLM 的推理能力,把问题进行拆解,形成一个一个的小问题,并定义好这些小问题之间的前后关系,先处理哪个,再处理哪个。然后按照顺序,调用 LLM 、 RAG 或者外部工具,来解决每一个小问题,直至解决最初的问题。
Copilot是 Agent 的发展过程和探索,是单纯的copilot,基于企业自身的决策进行智能辅助、智能决策,还是最终呈现出Agent的形态。业界一个形象的比喻,如果说copilot是单纯的二维世界,那么Agent则是三维空间,从二维到三维,需要的不再是scaling law的强大魔力,而更多是业务关系的本质理解,即产业大模型的训练和出发点应该是什么。
1.3 AI Agent分类
1.3.1 吴恩达-反思/工具/计划/multi
机器学习大佬吴恩达曾在演讲中将AI Agent分为如下四类:
反思系统 Reflecttion
定义: 一种通过自我反思方式,帮助模型不断改进输出质量的编排系统。这种方法模仿了人类在完成任务时的思考和修正过程,使得模型推理能力更强,结果更可靠。
举例: 这种编排系统特别适合输出高质量的文案,比如我们上面提到的AI Agent编写文案的例子就是这种反思系统的模式。著名的国外平台:Grammarly 就是利用了编排系统,调用强大的AI大模型进行写作,同时它不断反思检查你的拼写、语法和标点符号,通过多模型提供的句子结构和语言流畅性的建议进一步优化输出更好的效果。
工具调用系统 Tool Use
定义: 让大语言模型在生成答案或解决问题的过程中,调用外部工具(如计算器、数据库、搜索引擎等),以完成自身无法直接处理的任务。
举例: 现在的大语言模型更多的只是文本的生成和回答,工具调用系统可以通过调用工具弥补大语言模型的不足,扩展模型的功能。
计划系统 Planning
定义: 模型在解决复杂问题时,为实现目标制定合理的步骤或行动计划的能力。让大模型在面对复杂任务时,能像人一样制定计划、分解问题、逐步执行。
举例: Image Describer X图片描述网站 在处理我们图片时会使用模型制定计划,如果我们想输入一张小女孩读书的图片并进行描述,Image Describer X会进行如下行为:调用openpose model提取小女孩读书的动作调用Google Vit模型把动作转化为图片调用Vit-GPT2模型把图片转成文字调用fast speech模型把文字转成语音这种AI Agent就像我们人类一样把大问题拆分成小问题,并制定计划解决。它更贴近真实智能的行为,可以处理广泛复杂任务。
Multi-Cast Multi Agent 系统
定义: 最复杂的Agent系统,利用了多个Agent智能体,在共同目标的指导下,通过分工、协作和交互来完成任务或解决问题的过程。
举例: 2023年7月,清华大学 NLP 实验室联合面壁智能、北京邮电大学、布朗大学的研究人员共同发布了一个大模型驱动的全流程自动化软件开发框架 ChatDev (Chat-powered Software Development),加入 OpenBMB 大模型工具体系。ChatDev 是一个由多智能体协作运营的虚拟软件公司,在人类“用户”指定一个具体的任务需求后,不同角色的智能体将进行交互式协同,包括产品智能体设计方案,UI智能体设计界面,程序员智能体实现效果,测试智能体评估代码来生产一个完整软件(包括源代码、环境依赖说明书、用户手册等),直观上来说这种机制和软件公司并无两样,也是多智能体Agent系统的表达形式之一。
具体的项目体验可参考chatdev的github: https://github.com/OpenBMB/ChatDev
1.3.2 按智能水平分类
简单反射 Agent:基于简单的“条件-行动”规则,直接根据当前感知信息做出反应。例如:自动避障机器人。