什么是人工智能代理：从虚拟助手到智能决策者

本文链接：https://blog.csdn.net/m0_59163425/article/details/144517261

最近从依赖大型语言模型的聊天机器人转向当前领域所定义的智能体系统或智能体AI，可以用一句老话来概括：“少说多做。”

跟上技术进步的步伐可能会让人感到压力山大，尤其是如果你已经有一个现成的业务要经营。更不用说技术进步的速度和复杂性会让你感觉自己像是第一天上学一样。

本文将基于智能体的组成部分和特性概述智能体。介绍部分将涵盖构成“智能体”一词的各个部分，以创建一个直观的定义。在定义之后，接下来的部分将探讨LLM应用形态演化的探索，特别是从传统的聊天机器人到智能体系统的转变。

总的来说，关键目标是理解为什么智能体在AI应用开发领域变得越来越重要，以及它们与依赖于大型语言模型的聊天机器人有何不同。在本指南结束时，你将对智能体有一个更全面的了解，包括它们的潜在应用以及它们可能如何影响你组织的工作流程。

“AI智能体”这个词的两个组成部分可以让我们更深入地理解其含义。让我们先从简单的一方面开始：人工智能，也被称为AI。

人工智能（AI）指的是基于对人类智能进行计算模拟而形成的非生物形式的智能，旨在执行传统上需要人类智力的任务。为计算系统提供智能的主要方法是通过机器学习和深度学习技术，其中计算机算法——特别是神经网络的层次结构——从提供的数据集中学习模式和特征。AI系统被开发用于处理检测、分类和预测任务，由于基于转换器的基础模型的有效性，内容生成已成为一个突出的问题领域。在某些情况下，这些AI系统能够与人类表现相匹配，而在特定场景下，它们甚至会超过人类表现。

第二个组成部分，“智能体（agent）”是一个在技术和人类环境中都熟悉的术语，理解这两个视角有助于澄清AI智能体的概念。

在计算机科学和技术领域：计算机科学相关话题中的“智能体”指的是一个实体（软件智能体），它通过传感器具备环境意识和感知能力，并能够通过行动机制在环境中采取行动。在这个语境中，一个智能体是一个计算系统，它：

具有自主决策和行动的能力。
能够与环境互动。
可以追求目标或执行任务。
可能具备学习能力或使用知识来实现其目标。

在人类语境中：“智能体”通常指的是代表他人、群体或组织行事的人，通常担任决策、信息收集和分享的代理人。一个代理人的角色和职责可能包括：

在得到被代表方许可的情况下，为他人做出决策或采取行动。
在交易和合同场景中正式代表某人，再次强调这是在得到主要方许可的情况下。
作为多个当事人之间的中间人。

为了理解AI智能体，我们必须结合“智能体”一词在技术和人类语境中的特征，同时应用人工智能的指导原则。这种结合使我们能够理解AI智能体为何以及如何特别适合执行通常需要人类智能和代理能力的任务。

基于“AI智能体”这一术语的基础背景，我们可以形成AI智能体的定义。

一个AI智能体是一个具备环境意识的计算实体，配备了使它能够通过输入感知环境、通过工具使用进行行动以及通过长期和短期记忆支持的基础模型来实现认知能力的功能。

从大型语言模型到AI智能体
好的，你现在是一名AI工程师了。

但在你开始着手打造下一个营收达到十亿美元的AI产品之前，让我们退一步，理解一下我们是如何走到开发AI智能体这一步的。我们将回顾一下在大型语言模型应用方面，我们在短时间内所见到的变化。

大型语言模型应用的形式因素的演变是我们所见过的现代应用中最快速的发展之一。

传统聊天机器人到大型语言模型驱动的聊天机器人
聊天机器人并不新鲜；在生成式人工智能（生成式AI）诞生之前，您可能已经在某个网站上与聊天机器人互动过了。在生成式AI时代之前的传统聊天机器人与当今的AI驱动的对话智能体在本质上是不同的。以下是它们通常的工作方式：

基于启发式的响应：“如果这样，就那样”的逻辑，或者更正式地说，基于规则的逻辑，是传统聊天机器人的运行模型的基础。它们被编程为根据一组预定义的规则和决策树来确定如何响应用户的输入。
预设响应：传统聊天机器人背后有一组预写好的响应，这些响应会在检测到某些关键词或短语时展示给用户。这种方法在一定程度上是有效的。
转接到人工：传统聊天机器人中始终有一个“转接到人工”的按钮，老实说，这一点并没有发生太大变化。“人工在环”仍然是即使是代理系统也十分需要的机制。

基于大规模语言模型（LLM）的聊天机器人是LLM应用的首次主流引入。2022年11月30日，OpenAI发布了ChatGPT，这是一个简单的传统聊天机器人的网络界面（输入和输出可视化区域），但在其背后是OpenAI创建并基于大量互联网文本训练的GPT-3.5。

GPT（生成预训练变换器）基于Google在2017年提出的变换器架构。该架构使用自注意力机制处理输入序列，使模型能够考虑每个词与其他所有输入词的上下文关系。

与传统的聊天机器人不同，像GPT-3.5这样的LLM可以根据提供的输入生成像人类一样的文本。GPT-3.5及其他基于变换器的LLM的关键区别在于，内容生成机制不仅仅基于训练数据集中的模式识别和特征提取，而是这些基础模型能够生成看似新颖且上下文相关的响应。

基于GPT的聊天机器人如ChatGPT的引入为商业和企业用例开辟了一个全新的世界。值得注意的应用案例包括代码生成、内容创作、改进客户服务等。LLM驱动的聊天机器人能力标志着从传统基于规则的聊天机器人到更灵活、智能和强大的智能体（Agents）的重大转变。

尽管具备了先进的能力，基于LLM的聊天机器人仍然面临某些限制。一个重要的挑战是个性化。这些系统难以在长时间对话或多会话中保持一致且个性化的互动。更令人担忧的是，LLM合成的响应可能会模拟人类，但内容不准确。这种现象引起了关注，主要原因是这些系统开始以高度自信的态度提供错误信息，这种现象现在被称为“幻觉”。

重要的是要理解，当一个LLM出现“幻觉”时，它并不是故障，而是完全按照其训练所要求的去生成下一个输出标记，这些输出标记基于输入标记和其训练数据的概率。这一过程有时会导致听起来合理但实际上错误的输出。

解决这些限制成为了开发更先进AI系统的关键焦点，导致了探索可以“锚定”LLM输出的技术。一种突出的技术是检索增强生成或RAG。

从基于LLM的聊天机器人到RAG聊天机器人
RAG是一种利用信息检索方法来定位并提供相关数据的技术，这些数据随后与用户提示结合并作为输入提供给LLM。这一过程确保了LLM生成的输出基于以下两个方面：

非参数知识：根据特定查询或上下文从外部数据源检索的信息；这通常是实时从互联网或专有数据源获得的数据
参数知识：在训练过程中嵌入在LLM参数中的固有知识
通过利用这两种信息来源，RAG旨在产生更准确、更及时且上下文相关的响应。这种方法通过将模型的响应锚定于可检索和可验证的数据来缓解纯LLM系统的一些限制，如“幻觉”或过时的信息。

为了改进大型语言模型（LLM）的输出，人们从多个方面进行了努力，其中之一便是提示工程。提示工程指的是为LLM构建输入查询，以引导输出趋向于期望的特征，比如提高准确性、相关性和具体性。这一技术通过精心设计给定LLM的初始提示，确保输出更为精确、语境适当且具有任务特定性。

几种提示工程技术逐渐浮现，比如上下文学习、链式思维（CoT）和ReAct（推理和行动）。

上下文学习：利用大型语言模型的泛化能力，上下文学习涉及提供输入和输出对，以展示待解决的任务和期望的输出。这种方法通常以两种主要方式实现：

单次学习：提供一个输入输出对作为示例
少量学习：提供多个输入输出对作为示例
过程通常以没有对应输出的输入结束。基于提供的示例，LLM会生成受提示中的输入输出对条件和引导的输出。

这种方法使LLM能够在不调整模型参数的情况下适应特定任务或风格，而是依赖于模型识别模式并将其应用于同一上下文中的新类似情况的能力。

虽然上下文学习提示技术使LLM能够泛化到新的任务，但后续的发展如链式思维和ReAct提示则利用了LLM的新兴推理和规划能力。CoT使LLM能够通过逐步推理过程将复杂任务分解为较小、更简单的子部分。ReAct结合了LLM的推理能力和行动规划。

从RAG聊天机器人到AI智能体
随着LLM的参数规模扩展到数百亿，它们展示出越来越复杂的新兴能力，包括高级推理、多步骤规划以及工具使用或功能调用。

工具使用，有时被称为“功能调用”，指的是LLM生成结构化输出或模式的能力，该模式指定了从预定义集合中选择一个或多个功能，并为这些功能分配适当的参数值。LLM中的工具使用能力依赖于描述一个目标或任务的输入提示，以及以JSON格式提供给LLM的一系列功能定义。

LLM分析输入和功能定义以确定要调用的功能以及如何填充其参数。这种结构化的输出可以被外部系统使用来执行实际的功能调用。

什么是工具？
一般而言，任何可以被程序定义和调用的东西都可以被定义为工具，并提供相应的JSON定义给LLM。因此，RAG能力可以被视为工具，而调用外部系统的API也可以是工具。

能够访问工具和功能调用能力的LLM有时被称为“增强型LLM”，但值得注意的是，高级推理、多步骤规划和工具使用能力的结合促成了AI智能体的出现。拼图的最后一部分是AI智能体所处的环境。AI智能体在一个迭代执行环境中运行，这使它能够成为一个以目标为导向的系统，该系统可以根据之前的执行输出迭代当前执行，这可能与基于对话系统的界面不同。

代理系统或复合AI系统目前正作为现代AI应用的一种实现范式而兴起，这些应用与基于LLM的聊天机器人相比更为复杂，并且在与系统组件的集成中具有多面性。代理系统可以定义为一种计算架构，包含一个或多个具有自主决策能力的AI智能体，能够访问和利用各种系统组件和资源以实现既定目标，并根据环境反馈进行调整。未来将提供更多关于代理系统的理解资源。

另一个需要了解的关键术语是“代理RAG”，它是指一种范式，利用了LLM的路由、工具使用、推理和规划能力，以及基于查询和存储数据比较的信息检索。这种系统范式使得能够开发出可以访问各种工具以执行查询、分解任务和解决复杂问题的动态LLM应用程序。

要真正理解AI智能体，考虑它们的组成部分、特征和能力是非常重要的。

AI智能体的关键组件和特征

人工智能智能体（Agents）的组件是构成其架构并使其具备功能的重要部分。这些组件协同工作，处理信息、做出决策并与环境互动。主要组件包括大脑、行动和感知模块，每个模块在智能体的操作中都扮演着至关重要的角色。

一个智能体是一个由多个集成组件组成的计算实体，包括大脑、感知和行动组件。这些组件协同工作，使智能体能够实现其既定的目标和目标。

大脑：该组件负责智能体的认知能力，包括其推理、规划和决策的能力。智能体的大脑本质上是大模型（LLM）。大模型的涌现能力为智能体提供了诸如推理、理解、规划等功能。同时，类似于人类，大脑组件封装了不同的模块，如记忆、配置文件和知识。

记忆模块存储智能体与其他外部实体或系统的交互信息。存储的信息可以被调用来指导未来的执行步骤，并根据历史交互作出相应行动。配置文件模块使智能体能够根据角色特征的描述执行某些角色，从而将智能体调整为一组行为。

大脑组件中的知识模块使智能体能够存储和检索特定领域、相关且有用的信息，以用于规划并朝着目标采取行动。

行动：智能体响应环境和新信息的能力由行动组件提供，该组件包括使智能体生成响应和调用其他系统的模块。基于大模型的智能体装备了使用大脑组件中的过程将任务分解为步骤的能力。每个步骤可以与智能体的工具库中的工具相关联。凭借大模型的推理和规划能力，智能体可以在每个步骤中有效决定何时使用工具。

感知：该组件专门负责捕获和处理来自智能体环境的输入。在代理系统和交互范围内，输入以多种形式出现，但提供给智能体的主要输入形式是听觉、文本和视觉。

人工智能智能体的特性是定义其能力与操作模式的独特特征和行为。这些特性决定了人工智能智能体如何与其环境互动、处理信息以及实现目标。关键特性包括自主性、主动性、反应性和交互性。

以下是智能体关键特性的总结：
人工智能智能体是反思性和主动性的：人工智能智能体利用先进的推理模式来解决复杂问题。它们采用诸如ReAct和链式思考等技术来分解任务、规划行动并反思结果。利用大模型的推理和规划的涌现特性，这些智能体能够根据反馈、先前执行的输出和环境输入不断调整策略。这种规划、执行和反思的迭代过程使人工智能智能体能够高效地执行输入目标。
人工智能智能体是交互性的：在某些情况下，人工智能智能体可能需要与其他系统内的智能体或外部系统进行互动，而且通常期望它们与人类互动，以获取反馈或执行步骤的输出审查。人工智能智能体还可以理解其他智能体和人类输出的上下文，并改变其行动路径和下一步行动。人工智能智能体的交互性扩展到承担人格或角色，以推动并根据所采用的角色调整人工智能智能体的行为，以实现可预测性。在多智能体环境中，这使得模仿社会角色和基于角色定义的协作成为可能。
人工智能智能体是自主和反应性的：它们的自主特性使它们能够根据内部处理结果和外部观察进行行动，通常无需明确的外部命令。这种反应性主要由两种关键能力提供：工具使用和输入处理。这些能力使人工智能智能体能够动态响应其环境或任务条件的变化，并相应地调整其行为和行动。
结论
在我们的探索中，我们对人工智能智能体及其特性有了初步的理解，甚至提供了一个工作定义。然而，值得注意的是一个重要的注意事项：目前还没有统一的行业标准来确定当今快速发展的AI领域中人工智能智能体的确切构成。

相反，行业普遍认为将一个系统分类为人工智能智能体是在一个光谱或连续体上。这种细致的观点承认人工智能系统可以表现出不同程度的代理性、自主性和能力。

这就是术语“代理性”（agentic）进入讨论的原因。“代理性”指的是人工智能系统展示出类似智能体特性的程度。这些特性可能包括以下方面：

决策制定的自主程度。
与环境互动和操作的能力。
目标导向行为的能力。
适应新情况的能力。
主动性行为的程度。
这种基于连续体的理解使得对人工智能系统的分类更加灵活和包容。它认识到，随着人工智能技术的进步，“简单”人工智能系统和完全成熟的智能体之间的界限可能会越来越模糊。

大模型（LLM）应用的新形式的价值和影响在哪里实现？

在软件和应用开发方面，我们往往关注价值、影响以及在早期探索和试验人工智能智能体和代理系统上的投资回报。主要的价值体现在通过自动化手动流程提高生产力上。手动批准、文档和审查嵌入在企业组织的大多数工作流程中。代理系统在自动化现有工作流程中具有早期潜力——或者换句话说，“代理化”重复性任务。

代理系统的另一个价值在于减轻企业工作流程中的决策制定。当人工智能智能体嵌入代理系统和复合人工智能系统中时，可以提示它们在决策制定能力方面遵循规则和指导原则。但是，更大的价值和影响在于将日常个体更紧密地与系统联系在一起，而无需获得技术知识，这是因为代理系统允许自然语言和图像驱动的界面成为系统功能调用和执行的主要驱动因素。基础模型输入的多功能性使得代理系统能够通过自然语言进行导航，从而减少系统交互的技术复杂性。

当前AI栈中的参与者努力点在哪里？

可靠性和性能是AI行业关键参与者在提供解决方案方面关注的重点领域。解决这些重点领域的途径包括增加基础模型中的参数以增强AI智能体的推理能力，或开发工具以在AI智能体所在的系统中编排工作流程。

MongoDB处于数据解决方案的前沿，提供了一整套数据库能力和平台功能，以支持企业级和前沿代理系统的开发。为了提供解决代理系统可靠性、可扩展性和性能问题的功能，MongoDB为AI智能体和代理系统提供了内存支持。MongoDB在代理系统中的优势包括：

长期数据管理：MongoDB提供强大的存储和高效的检索对话历史记录的能力，使AI智能体能够保持上下文并从过去的互动中学习，这是通过Atlas搜索实现的。
向量数据库功能：借助MongoDB Atlas向量搜索功能，平台提供最先进的向量嵌入数据存储和检索，这对AI工作负载和语义搜索功能至关重要。
可扩展的数据存储：MongoDB的架构确保了AI智能体操作数据的高性能、可扩展存储，可以无缝地适应不断增长的数据量和计算需求。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述