AI Agent智能体科普入门

2024年AI智能体已经在各行各业得到应用,有人说2025将是AI智能体爆发的元年,能不能爆发不知道,但继续扩大应用规模肯定是一个趋势,原因在于基座大模型发展到现在已经到了一个相对成熟甚至说是瓶颈的阶段,各家基座大模型都在互卷,变现不易,把基座大模型应用起来变现,智能体是一个主要的渠道,也该到大模型大范围应用起来的时候了。

AI智能体如此重要,本文作为一篇科普入门文章,希望你读完后明白AI智能体的通用基础知识。现在不敢写“AI智能体读完这篇就够了”之类的文章,原因是目前AI智能已经应用或将应用到很多领域,每个领域都有好多综述论文,要么介绍一下通用知识,要么就某个领域做专门的介绍。下图是AI智能体应用领域的一个展望列表:

图1. 基于大语言模型的AI Agent应用领域展望,来源[3]

本文主要包含以下内容:

  • 什么是AI Agent

  • AI Agent和工作流的关系

  • AI Agent的架构

  • AI Agent框架

1. 什么是AI Agent

先直接给出今天我们要介绍的AI Agent目前的主流定义:能自主感知环境、进行决策、并采取行动以实现特定目标的智能实体。

在这两年基于大模型的的Agent大家多数都把Agent叫做智能体,之前在计算机行业,大家更多把Agent叫代理。

Agent概念可以追溯到哲学领域,指拥有欲望、信念、意图和行动能力的实体,可授权他们自主权进行决策、采取行动,而不只是被动地对外界刺激作出反应[2]。上世纪80年代,AI领域引入了Agent概念,其发展历程跟随了AI发展的几个阶段,包括基于符号推理、基于专家规则、基于强化学习(和环境交互,训练策略得到最大奖励)、基于迁移学习和元学习(Transfer Learning、Meta Learning),到现在基于大语言模型的Agent。

有了大模型后,模型能力强了,对环境的感知和决策是其强项,促使了基于大模型的Agent的热潮。下面我们讲的都默认是基于大模型的AI Agent。

2. AI Agent和工作流的关系

十年前,IT自动化工作流已经是很普及的一种方式,它把工作中的流程设计好,一般在一个流程自动化工具界面上通过拖拽方式按设计创建流程,流程中可以设置if/else条件、迭代循环、各种操作例如文件读写、数据库操作等。然后执行工作流,就按照设计执行,例如常见的审批流程,HR、财务流程等。下图是我曾经用过的一个IT流程自动化工具界面。

图2. IT自动化工作流工具样例

AI Agent和传统工作流比,不同之处表面看可以理解为在传统工作流上增加了大模型能力。更深一层看,正是增加了大模型能力,使得传统的工作流有了大脑,是一个本质的改变。传统工作流是人设计好流程,一步步按部就班执行,有了大模型能力后,大模型作为大脑对接收到的需求进行分析,决策先做什么、后做什么,中途还可以根据不同场景动态调整。

即使有了AI Agent,传统工作流仍然有其用武之地,能用工作流解决的问题,不一定非得用AI Agent,避免拿着锤子找钉子。

3. Agent常见架构

这一部分是重点,阅读了很多篇综述论文,最后决定参考其中的三篇,一篇复旦大学NLP组综述论文,一篇香港中文大学和北大等单位联合的综述,一篇前OpenAI Lilian Weng介绍Agent的博客,具体见文末参考资料部分。

仍然先说结论:虽然各种资料介绍的关于AI Agent架构和组件都有差异,但本质上核心内容是相同的,即:

  • 要和环境交互、感知环境

  • 要思考进行规划、决策、反思,同时要用到各种短期、长期记忆

  • 要根据决策采集行动,其中需要使用各种工具

3.1 复旦大学NLP组综述

图3. 复旦NLP组基于大模型Agent的概念架构

简称综述#1,包括三个部分:Perception、Brain、Action。

Perception感知

对照人的感官系统,如眼睛、耳朵,把从外界接收到的多模态信息转换为Agent能理解的向量表示。分为文本、视觉、语音和其他不同的输入类型。

图4. Perception模块分类

Brain大脑

大脑是重头戏,是Agent的控制中心,负责思考、使用记忆和知识、任务分解、做决策等。是体现大模型发挥作用的地方,具体分为:

  • 自然语言交互:多轮对话、自然语言生成、意图理解。

  • 知识:学习和利用知识,包括语言知识、通用知识、领域知识。

  • 记忆:使用记忆,包括短期记忆和长期记忆。

  • 推理和计划

  • 迁移和泛化

图5. Brain模块分类

Action动作

Action根据大脑决策执行行动,对环境施加影响。涉及各种工具的使用,比如API接口调用,以及具身智能动作。

图5. Action模块分类

单Agent和多Agents

单Agent就是一个Agent独立处理任务,缺点是不能多个Agents之间协作产生更大的作用,所以出现了多Agents模式,以及Agent和人之间的互动。

图6. 单Agent、多Agents、Agent与人互动

多Agents之间有合作关系、相互对抗关系以提高对方性能。

图7. 多Agents间的合作关系、对抗关系

3.2 香港中文大学综述

图8. 基于大语言模型Agent概览

简称综述#2,Agent部分包含:

LLM:通常是领域相关的大语言模型,推理参数例如温度参数可调整,作为Agent的核心,基于当前的观察、历史记忆、奖励信息推理,进行决策。

目标:Agent基于该目标进行任务分解和规划。

动作:综述#1中已讲解。

记忆:综述#1中已讲解,Agent采取行动的时候,环境的反馈和奖励记录到记忆中。

反思Rethink:对上一次执行的结果和环境反馈进行反思、反省。

多Agents

按角色间的关系分为:合作、竞争、既有合作又有竞争的混合、分层级。

按计划和执行类型分为:LLM中心计划分开执行(CPDE,Centralized Planning Decentralized Execution (CPDE) 、分开计划分开执行(DPDE,Decentralized Planning Decentralized Execution)。

图9. 多Agents分类和关系

3.3 Lilian Weng博客

图10应该是国内介绍AI Agent使用最多的一个架构图,我不太确定原创是否来自于OpenAI的Lilian,但Lilian本人以及这篇博客很有影响力。

图10. 基于大语言模型的Agent自治系统总览

已经看过前面综述#1、#2的情况下,上面的组件基本都能理解了,我们还是对主要内容描述一下。

组件1:计划Planning

任务分解:主要方法有思维链Chain of thought(大名鼎鼎的CoT)、在CoT上扩展的思维树Tree of Thoughts。

反思Self-Refection:有三种模式。

模式一:ReAct(Reason+Act,推理+行动),反复执行。

图11. ReAct模式及样例

模式二:Reflexion,根据动态记忆和反思改进推理技能,由Heuristic函数根据运行中的效率和幻觉情况来决定是否停止执行。

图12. Reflexion模式

模式三:Chain of Hindsight,模型根据过去输出的内容来微调,得到更好的模型。

组件2:记忆

记忆按下图分类,其中专门提到一般外部的记忆存到向量库中,从向量库中快速搜索获得内容的概念maximum inner-product search (MIPS),其常用近似近邻算法approximate nearest neighbors (ANN),有兴趣的请阅读原文[1]。

图13. 记忆分类

组件3:工具使用

前面已有介绍,此处省略。

和一开始讲的一样,三篇文章虽然架构和描述有差异,但AI Agent的核心内容和部件都基本相同,通过这三篇文章我们对AI Agent有一个入门的科普了解应该是没问题了。

4. AI Agent框架项目

有了理论,最后还是要回到实践使用,看一下使用这些理论已经实现的框架项目有哪些。

项目很多,不同项目所处的层次不一样,有的偏底层,用户可以在上面进行定制化开发,有的偏上层应用,直接拖拽定义,我们列举几个流行的。

LangChain

很著名的框架,可以在上面进行各种定制化,但是多数人反映做简单的应用可以,如果深入后要修改和定制很复杂,成本高。目前97.6k stars。

LangGraph

LangChain旗下的平台,可独立于LangChain使用,提供了有状态、多角色、更细粒度的循环和条件分支控制、多Agents创建功能。目前7.8k stars。

AutoGPT

一个允许你创建、部署、管理Agent实现自己目标的平台,基于它演变的框架很多。目前170k stars。

CrewAI

用于编排复杂AI Agent系统的生产级框架。从简单的自动化到复杂的实际应用,CrewAI提供精确的控制和深度定制。目前23.9k stars。

AutoGen

微软发布的用于构建AI Agent系统的开源框架。它简化了事件驱动的、分布式的、可伸缩的、有弹性的Agent系统创建。目前36.8k stars。

MetaGPT

基于软件开发中各种角色构建多Agents,完成复杂任务。目前46.4k stars。

扣子Coze

字节旗下产品,coze.cn,提供可拖拽的工作流和Agent创建能力,国内比较流行的平台。

Dify

提供从AI Agent 构建到工作流编排、RAG 检索、模型管理等能力,国内比较流行的平台。目前57.2k stars。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型?

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。

大模型典型应用场景

AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。

这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。

学习资料领取

如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述
请添加图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有,跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

四、LLM面试题

在这里插入图片描述
在这里插入图片描述

五、AI产品经理面试题

在这里插入图片描述

😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~
在这里插入图片描述

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]👈

<think>嗯,我现在需要向用户介绍AI Agent智能体)。首先,我应该明确AI Agent的定义和核心特征。用户可能对这个概念不太熟悉,所以得从基础讲起。AI Agent是什么?它是一个能够感知环境、自主决策并执行动作的智能实体。然后,我需要分点说明它的特点,比如自主性、反应性、目标导向、学习能力,可能还有社交性。每个特点需要简解释,让用户容易理解。 接下来,用户可能想知道AI Agent的应用场景。这时候我要举一些实际的例子,比如虚拟助手、自动驾驶、游戏AI、客服系统、医疗诊断和金融交易。每个应用场景需要简短说明,突出AI Agent在不同领域的作用。 然后,技术架构部分也很重要。用户可能对背后的技术感兴趣,比如感知模块、决策模块、执行模块和学习模块。每个模块的功能需要解释清楚,但不用太深入技术细节,保持易懂。 用户可能还会关心AI Agent的挑战,比如复杂环境处理、伦理问题和计算资源。这部分需要客观指出当前存在的问题,帮助用户全面了解。 最后,展望未来发展方向,比如模态交互、人机协作、通用人工智能和伦理规范。这部分要让用户看到AI Agent的潜力和未来趋势。 在写作过程中,要确保结构清晰,分点列出,避免使用专业术语过,用中文口语化表达。同时,注意数学公式的正确格式,但用户问题中没有涉及数学内容,所以可能不需要用到。检查是否符合之前的系统级指令,比如使用中文,结构清晰,分步骤解答。确保回答真实可靠,信息准确。 现在需要整理这些思路,按照逻辑顺序组织内容,从定义到特点,再到应用、技术架构、挑战和未来展望。每个部分用标题和列表项分开,方便阅读。保持语言简洁,避免冗长,同时覆盖关键点。检查是否有遗漏的重要信息,比如是否提到了学习能力中的强化学习或迁移学习,是否需要更具体的例子。确保每个段落不要太长,适当换行,使回答易于浏览。</think>### AI Agent智能体)介绍 #### 1. **定义与核心特征** **AI Agent** 是一种能够感知环境、自主决策并执行动作的智能实体,其核心特征包括: - **自主性**:无需人类干预,独立运行(例如:自动驾驶汽车实时判断路况)。 - **反应性**:动态响应环境变化(例如:聊天机器人根据用户输入调整回答)。 - **目标导向**:为实现特定目标而行动(例如:物流机器人规划最优路径送货)。 - **学习能力**:通过数据或交互提升性能(例如:推荐系统学习用户偏好)。 - **社交性**(可选):与其他Agent或人类协作(例如:机器人协同搬运)。 --- #### 2. **典型应用场景** - **虚拟助手**:Siri、小爱同学等处理日常任务。 - **自动驾驶**:特斯拉Autopilot综合感知与决策。 - **游戏AI**:AlphaGo、Dota 2的OpenAI Five实现复杂策略。 - **智能客服**:银行客服Agent自动解答常见问题。 - **医疗诊断**:IBM Watson分析病例并提供建议。 - **金融交易**:高频交易Agent实时捕捉市场信号。 --- #### 3. **技术架构** AI Agent通常包含以下模块: 1. **感知模块** - 输入:传感器、文本、图像等模态数据。 - 技术:计算机视觉(CV)、自然语言处理(NLP)。 2. **决策模块** - 方法:规则引擎、机器学习模型(如深度强化学习)。 - 输出:生成行动策略(例如:机器人选择避障路径)。 3. **执行模块** - 动作:物理操作(机械臂抓取)或数字操作(发送消息)。 4. **学习与优化模块** - 机制:在线学习(实时更新)、迁移学习(跨任务复用知识)。 --- #### 4. **关键挑战** - **复杂环境适应**:噪声、不确定性干扰决策(如嘈杂环境下的语音识别)。 - **伦理与安全**:自动驾驶的“电车难题”、隐私泄露风险。 - **资源限制**:嵌入式设备需平衡计算效率与模型精度。 --- #### 5. **未来发展方向** - **模态交互**:融合视觉、语音、触觉等维度感知。 - **人机协作**:Agent理解人类意图并辅助决策(如手术机器人配合医生)。 - **通用人工智能(AGI)**:Agent跨领域执行样化任务。 - **伦理规范**:建立透明、可解释的决策机制。 --- ### 总结 AI Agent作为人工智能的具象化载体,正在从一任务向通用化、社会化演进。其核心价值在于**延伸人类能力**(如处理海量数据)与**替代高风险操作**(如深海勘探),未来或将成为数字经济的重要基础设施。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值