10分钟讲清楚LLM 、智能体、工作流和 MCP

最新推荐文章于 2025-05-14 14:47:18 发布

大模型研究院

最新推荐文章于 2025-05-14 14:47:18 发布

阅读量820

点赞数 31

文章标签： word prompt 计算机视觉人工智能机器学习大模型 LLM

本文链接：https://blog.csdn.net/l01011_/article/details/147916154

版权

大型语言模型（LLMs）的出现，推动人工智能（AI）实现了重大突破。这些功能强大的系统重塑了自然语言处理领域的发展态势，然而，只有当它们具备推理、规划及自主行动等自主能力时，才能充分发挥其真正的潜力。

1、从大型语言模型到AI智能体

大型语言模型作为人工智能领域极具标志性的重大成果，凭借对海量数据的深度训练，具备了产出流畅且逻辑连贯文本的能力，为各类自然语言处理任务筑牢了坚实根基。但不容忽视的是，这类模型从根本属性上来说属于被动型工具，仅能依据用户输入的指令进行文本生成，在主动执行任务以及与外部环境展开交互方面存在天然局限。

AI智能体的诞生彻底扭转了原有态势。它绝非简单的语言模型迭代产物，而是为人工智能注入了自主意识与主动执行能力。AI智能体不仅能够精准把握任务核心目标，还能凭借强大的推理和规划能力制定出完备的行动策略，并且可以灵活对接外部工具及系统，从而高效完成各类复杂任务。从被动响应到主动行动的质变，让人工智能的应用边界得到了前所未有的突破。

2、AI智能体的组成

特征

自主性：AI 智能体具备独立感知外部环境、自主做出决策并执行相应行动的能力，摆脱了对人类持续干预的依赖。
适应性：它们能够依据不同任务需求和环境变化，灵活调整自身行为模式，展现出极强的应变能力。
交互性：AI 智能体可与人类用户、其他智能体及外部系统实现高效沟通与协同合作。

组成

感知模块承担着收集和处理外界信息的重任，例如借助自然语言理解技术解析用户输入；
推理引擎基于感知模块获取的信息，进行逻辑推演并完成决策制定；
规划模块围绕任务目标，制定详细的行动步骤与策略；
执行模块则负责将规划方案付诸实践，通过与外部工具或系统交互达成任务目标

3、聊天机器人类型

聊天机器人并非新近才出现的事物。早在生成式人工智能（Gen AI）这一概念诞生之前，或许你就已在浏览网站的过程中，有过和聊天机器人交流的经历。不过，传统的聊天机器人和如今由AI驱动的对话代理有着本质区别。下面为你介绍它们常见的工作模式：

基于启发式的响应

传统启发式响应聊天机器人主要依托基于规则的逻辑，通过 “如果 - 那么” 语句来运行。它们的运作被严格限制在预设规则框架内，一旦遭遇复杂或语义模糊的查询，便束手无策。这类机器人的致命缺陷在于，当用户提问超出既定规则范围，就无法输出有效的回应。

固定化的回答

固定化回答也是传统聊天机器人的显著特征，其答案都是静态且预先设定好的。它们通过识别特定关键词或短语，机械地触发预设回答，缺乏根据对话上下文灵活调整的能力，导致对话缺乏深度与互动性。

人工接管

传统聊天机器人普遍设有 “转接人工客服” 功能，用于处理无法解决的问题。在面对复杂问题时，人工介入依旧不可或缺，这使得它们在处理复杂或需深度理解的场景时，暴露出明显短板。

LLM机器人

随着大型语言模型（LLM）的诞生，聊天机器人技术实现了革命性突破。LLM 驱动的聊天机器人摒弃了传统的固定规则和预设答案模式，借助自然语言理解（NLU）与自然语言生成（NLG）技术，能够动态生成回复内容。其优势体现在以下方面：

卓越的语言理解能力：LLM 具备强大的语义解析能力，不仅能处理复杂的语言结构，还能应对模糊、开放的问题。通过对上下文的精准分析，LLM 能够准确把握用户意图，从而输出更贴合需求、更自然流畅的回答。
动态化回答生成：区别于传统聊天机器人的静态回复，LLM 驱动的聊天机器人能依据用户输入实时生成答案，极大提升了回答的灵活性，并且可以根据不同场景和用户需求，提供个性化的交互体验。
减少人工干预：尽管在处理某些极端复杂问题时，仍需人工介入辅助，但 LLM 驱动的聊天机器人已能独立解决大部分常见问题，显著降低了人工客服的工作负荷，同时也大幅提升了用户的交互体验。

4、AI智能体

AI智能体的概念基于理性行为的基本理念：智能体应该采取能够最大化实现其指定目标成功的行动。这种理性正是AI智能体与简单响应程序的根本区别。

AI智能体能够在没有人类干预的情况下独立运行，并自主做出决策。
AI智能体能够对环境的变化做出反应，并采取主动措施以实现目标。
通过处理新信息和经验，AI智能体能够学习和进化。

AI智能体的核心组件

感知（传感器）

这些组件使智能体能够感知其环境。它们可以是物理传感器（如摄像头、麦克风）或数字输入（如数据流、用户交互）。

推理（处理器）

这是智能体的“大脑”，负责处理来自传感器的信息并确定适当的行动。这一组件实现了智能体的决策算法，并维护任何必要的内部状态。AI智能体使用各种决策机制，如基于规则的系统、专家系统和神经网络，以做出明智的选择并有效执行任务。

行动（执行器）

这是智能体影响环境或采取行动的手段。它们可以是物理的（如机械臂、扬声器）或数字的（如数据库更新、显示输出）。

AI智能体如何与环境互动

AI智能体与环境的互动通常被称为“感知-规划-行动”循环或“感知-行动”循环。我们以自动驾驶汽车为例来理解每个阶段：

感知阶段

智能体通过其传感器接收输入。
信息被处理和解释。
根据新信息更新当前状态。

决策阶段

智能体评估可能的行动。
考虑目标和约束条件。
根据可用信息选择最优行动。

行动阶段

通过执行器执行选定的行动。
环境因行动而发生变化。
智能体通过传感器观察结果，开始新的循环。

5、AI智能体如何工作？

AI智能体与简单自动化工具的区别主要在于两个关键能力：工具使用和规划。

交响层（控制中心）

假设我想创建一个AI智能体日程安排器，我向它发出指令：“我想为我的学生举办一场网络研讨会”。这将被视作触发AI智能体的信号。

交响层（也称为控制中心）负责处理查询，无论查询是文本、音频、视频还是图像，最终都会被转换为机器可处理的数值。

交响层的四大主要功能如下：

记忆：保存整个交互过程的记忆。
状态：存储当前流程的状态。
推理：指导智能体的推理过程。
规划：确定步骤以及下一步行动。

模型（大脑）

模型是整个智能体的集中决策者，通常是像大型语言模型这样的AI模型。

为了理解查询、制定计划并确定下一步行动，模型会使用推理和逻辑框架，例如：

ReAct（推理+行动）：确保深思熟虑且有条不紊的行动。
思维链：通过中间步骤进行推理。
思维树：探索多条路径以找到最佳解决方案。

何时使用智能体？

以一个冲浪旅行网站为例，假设你可以提前知道用户请求将属于两个类别之一（基于用户选择），并且你为这两种情况分别设定了预定义的工作流程：

用户想了解旅行信息？⇒ 给他们提供一个搜索栏，让他们搜索知识库。
用户想联系销售？⇒ 让他们填写联系表单。

直到最近，计算机程序还被限制在预定义的工作流程中，通过堆叠if/else语句来处理复杂性。它们专注于极其狭窄的任务，比如“计算这些数字的总和”或“在这个图中找到最短路径”。

6、如何构建AI智能体？

智能体是一个能够感知环境、做出决策并采取行动以实现特定目标的自主实体。智能体的复杂程度可以从简单的反应式智能体（仅对刺激做出响应）到更高级的智能体（能够学习并随时间适应）。常见的智能体类型包括：

反应式智能体：直接对环境变化做出响应，没有内部记忆。
基于模型的智能体：使用内部模型来做出决策。
基于目标的智能体：根据特定目标规划行动。
基于效用的智能体：通过效用函数评估潜在行动，以最大化结果。

为什么智能体框架如此重要？

从零开始构建智能体并非易事。像LangGraph、CrewAI和OpenAI Swarm这样的框架简化了开发过程，使开发人员能够专注于应用逻辑，而不是重新发明状态管理、编排和工具集成的轮子。智能体框架的核心优势包括：

简单定义智能体和工具：提供清晰的接口和模板，方便开发人员快速上手。
编排机制：管理多个智能体之间的协作和任务分配。
状态管理：确保所有智能体在任务执行过程中保持一致的状态。
支持复杂应用的附加工具：例如持久层（记忆）、中断处理等。

智能体框架代表了人工智能系统设计的范式转变。与依赖静态、预定义工作流的传统AI应用不同，智能体框架引入了动态、自适应的系统，能够自主地感知、推理和行动。这些框架将复杂任务分解为更小的子任务，由专门的智能体协作完成更广泛的目标。

常见的智能体框架

LangChain

LangChain是一个强大且灵活的框架，简化了基于大型语言模型（LLMs）的应用开发。它提供了丰富的工具和抽象层，使开发人员能够设计具备复杂推理、任务执行和与外部数据源及API交互能力的AI智能体。LangChain通过其模块化架构，解决了与LLMs协作时的诸多挑战，例如在长对话中保持上下文、整合外部信息以及协调多步骤任务等。

LangGraph

LangGraph是LangChain的扩展，专门用于创建基于图的单智能体或多智能体AI应用。它非常适合构建涉及规划、反思和多智能体协作的复杂交互式AI系统。LangGraph作为底层框架，允许开发人员控制智能体之间的交互、使用的工具以及应用内的信息流动。

CrewAI

CrewAI是一个用于编排角色扮演AI智能体的框架。它允许开发人员创建一个“团队”，每个AI智能体都有特定的角色和职责，共同完成复杂的任务。CrewAI特别适合构建需要多样化专业知识和协调努力的协作AI系统。

Microsoft Semantic Kernel

Microsoft Semantic Kernel旨在弥合传统软件开发与AI能力之间的差距。它特别关注将大型语言模型（LLMs）集成到现有应用中。该框架为开发人员提供了在不完全推翻现有代码库的情况下，整合AI功能的工具。其轻量级的SDK和对多种编程语言的支持，使其能够适应各种开发环境。

Microsoft AutoGen

Microsoft AutoGen是一个开源框架，用于构建高级AI智能体和多智能体系统。由微软研究院开发，AutoGen提供了一个灵活且强大的工具包，用于创建对话式和任务完成型AI应用。它强调模块化、可扩展性和易用性，使开发人员能够高效地构建复杂的AI系统。

Smolagents

Smolagents是一个前沿的开源框架，旨在彻底改变AI智能体的开发方式。它为开发人员提供了一个全面的工具包，用于构建智能的、协作的多智能体系统。Smolagents专注于灵活性和模块化，能够创建独立运行或在人类监督下协作的复杂AI系统。

AutoGPT

AutoGPT基于强大的GPT-4语言模型，能够通过语言输入执行目标导向的任务。它代表了自主AI智能体领域的重大进步，将决策提升到了新的水平。

Agno (Phidata)

Agno（原名Phidata）是一个多模态智能体框架，能够开发协作式智能体系统。它支持文本、图像和音频等多种模态数据，无需依赖外部工具即可独立运行。此外，Agno还提供了Agentic UI，方便用户与智能体进行可视化交互。

深入探索LangGraph

LangGraph是由LangChain团队开发的一个库，旨在帮助开发人员创建基于图的单智能体或多智能体AI应用。作为一个底层框架，LangGraph允许开发人员控制智能体之间的交互、使用的工具以及应用内的信息流动。

LangGraph的核心是基于图的应用工作流表示。图包含两个主要元素：

节点：每个节点代表应用中的一个独立工作单元或操作。这些节点可以是与LLM直接交互以生成文本、调用外部工具和API、处理数据或与用户交互的Python函数。
边：边是图中的连接线，用于指导信息流动和控制流。LangGraph支持多种边类型，包括简单边（直接从一个节点流向另一个节点）和条件边（根据特定节点的操作结果决定工作流的分支）。

7、AI智能体的类型及其应用

简单反射智能体（Simple Reflex Agent）

定义：简单反射智能体仅在特定动作或条件发生时才执行任务。它们根据预定义的规则做出响应，不考虑过去的经历。

特点：

优点：设计简单，响应迅速，适合简单任务。
缺点：缺乏适应性和学习能力，无法处理复杂环境。

基于模型的反射智能体（Model-Based Reflex Agent）

定义：基于模型的反射智能体通过内部模型来处理部分可观测的环境。它们根据当前感知和内部状态做出决策，并根据环境变化更新内部状态。

特点：

优点：能够处理部分可观测的环境，决策更加灵活。
缺点：模型构建和维护成本高，可能无法完全反映真实环境。

基于目标的智能体（Goal-Based Agent）

定义：基于目标的智能体通过环境信息来实现特定目标。它们使用搜索算法和启发式方法来找到实现目标的最优路径。

特点：

优点：适合需要战略规划和适应性的复杂任务。
缺点：目标定义需要大量领域知识，适应性有限。

基于效用的智能体（Utility-Based Agent）

定义：基于效用的智能体通过效用函数评估多个可能行动的结果，选择效用最高的行动。它们特别适合复杂和不确定的环境。

特点：

优点：能够处理不确定性，灵活适应环境变化。
缺点：计算成本高，依赖于准确的环境模型。

学习智能体（Learning Agent）

定义：学习智能体通过经验学习并随着时间推移改进性能。它们通常使用强化学习框架来优化行动选择。

特点：

优点：能够适应动态环境，持续改进。
缺点：需要大量数据和计算资源，可能产生偏见。

层级智能体（Hierarchical Agent）

定义：层级智能体通过多层结构管理任务，高层智能体监督低层智能体。这种结构适合复杂任务的分解和协调。

特点：

优点：适合大规模任务管理，提高效率。
缺点：结构复杂，适应性有限。

多智能体系统（Multi-Agent Systems, MAS）

定义：多智能体系统由多个智能体组成，这些智能体通过协作或竞争来实现共同目标或优化个体结果。

特点：

去中心化：决策分散在多个智能体之间。
协作与竞争：智能体可以协作或竞争，具体取决于场景。
可扩展性：能够处理大规模问题。
专业化：每个智能体专注于特定任务。

8、智能体与工作流的对比

理解智能体（Agent）与工作流（Workflow）之间的区别变得至关重要。这两者构成了现代智能体系统的核心自动化范式。

智能体与工作流的区别

工作流（Workflows）

工作流是结构化的、基于规则的自动化流程，其结果是预先定义好的。它们通常用于处理静态的、重复性的任务，例如在电子商务系统中，用户购买产品后自动发送订单详情邮件。

特点：

确定性：工作流遵循线性、可预测的执行路径。
适用场景：适合结构化任务，如自动化电子邮件发送、数据处理等。
智能体（Agents）

智能体是动态的、决策系统，能够根据上下文适应不同的场景。它们通过感知环境并做出决策来完成任务，而不是遵循预定义的路径。

特点：

适应性：智能体能够实时选择使用哪些工具以及生成什么输出。
适用场景：适合需要灵活性和动态决策的任务，如客户支持、复杂问题解决等。

何时使用智能体，何时使用工作流

在开发基于大型语言模型（LLM）的应用程序时，建议从最简单的解决方案开始，只有在必要时才引入复杂性。工作流提供了结构化任务的可预测性和一致性，而智能体则更适合需要灵活性和大规模模型驱动决策的场景。

何时使用智能体：

复杂任务：任务需要多步骤推理和动态适应。
灵活性：任务的执行路径无法预先定义，需要实时决策。

何时使用工作流：

结构化任务：任务可以分解为固定的子任务。
效率：需要快速、一致的执行路径。

工作流模式

提示链（Prompt Chaining）

提示链将任务分解为一系列步骤，每个LLM调用处理前一个调用的输出。这种模式适用于可以轻松分解为固定子任务的场景。

并行化（Parallelization）

并行化允许LLM同时处理任务，并将输出聚合。这种模式适用于需要快速处理或需要多种视角的任务。

路由（Routing）

路由将输入分类并将其导向后续任务。这种模式适用于需要将复杂任务分解为不同类别的场景。

协调器-工作者（Orchestrator-Worker）

在协调器-工作者工作流中，中央LLM动态分解任务，将它们委托给工作者LLM，并综合它们的结果。

协调器-工作者（Evaluator-Optimizer）

在协调器-工作者工作流中，中央LLM动态分解任务，将它们委托给工作者LLM，并综合它们的结果。

9、Model Context Protocol（MCP）

LLM（大语言模型）、工具和上下文是构建智能代理系统的三大核心要素。然而随着越来越多的模型、应用和库的发布，将这些组件粘合在一起变得越来越复杂。本文将介绍Model Context Protocol（MCP）如何通过提供标准化方式来解决这个问题。

10、什么是MCP？

MCP被Anthropic称为"AI应用的USB-C接口"。它不像每个AI应用开发者那样创建自己的自定义连接方式，而是提供了一个所有人都可以使用的标准[1]。

这种标准化带来了社区驱动开发的力量。现在，不同团队开发的应用和工具可以通过标准流程轻松互通。

MCP的应用场景

为Cursor等AI工具添加自定义集成（如Slack和Google Drive）
轻松将个人工具和上下文连接到多个AI应用（如Claude、Cursor或n8n工作流）
应用开发者可以利用社区构建的MCP服务器生态，零成本扩展产品能力！

11、MCP工作原理

MCP采用客户端-服务器架构。MCP客户端向MCP服务器发送请求，服务器则响应并提供工具、资源和提示的访问权限。

就像咖啡店有固定的点单流程一样，MCP也定义了AI应用访问工具和上下文的标准协议：

连接 - 客户端初始化连接，服务器响应，客户端发送初始化确认通知
交换 - 以JSON格式交换请求、响应和通知
终止 - 三种终止方式：客户端关闭、传输断开或发生错误

MCP客户端

MCP客户端内置于AI应用中，如Claude、Cursor、n8n工作流或使用OpenAI Agents SDK构建的自定义代理。

它们代表应用向MCP服务器发送请求，主要职责包括：

发现服务器能力
接收服务器数据
管理LLM工具执行

使用现有AI应用（如Claude、Cursor）时，无需构建MCP客户端，但可能需要构建自定义MCP服务器。

MCP服务器

MCP服务器是为AI应用提供服务的独立服务，监听客户端请求并根据自身能力响应[2]。

服务器为AI应用提供三大核心功能：

提示(Prompts) - 提示模板
资源(Resources) - 数据、文件系统、数据库
工具(Tools) - 函数、API、图像处理

服务器可以本地或远程运行，支持两种传输机制：

stdio（本地） - 服务器作为子进程运行，通过标准IO流与客户端通信
HTTP with Server-Sent Events（SSE）（远程） - 客户端到服务器使用HTTP POST请求，服务器到客户端使用SSE流。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】