深入理解AI Agent：6种类型解析及其在人工智能中的应用-CSDN博客

本文链接：https://blog.csdn.net/m0_48891301/article/details/138730219

随着大模型的发展，通用智能不断迭代升级，应用模式也不断创新，从简单的Prompt应用、RAG（搜索增强生成）再到AI Agent（人工智能代理）。其中AI Agent一直是个火热的话题，未来将无处不在。比尔盖茨还宣称终极技术竞赛将围绕着开发顶级AI代理。他说：“你再也不会去搜索网站或亚马逊了…”。说明他看好人工智能给人机交互模式带来的巨大变化，也认可AI Agent在当中扮演的重要角色。

AI Agent 是一个由人工智能驱动的虚拟助手，它能够帮助实现流程自动化、生成见解、提升效率。可以作为员工或合作伙伴帮助实现人类赋予的目标。

恒温器就是一个简单的AI Agent例子，它可以根据特定的时间调节加热达到特定的温度。它通过温度传感器和时钟感知环境。它通过一个开关采取行动，可以根据实际温度或时间打开或关闭加热。恒温器可以通过添加AI功能变成一个更复杂的AI代理，使其能够从居住在房子里的人的习惯中学习。

AI Agent可以根据Agent的行为对感知智能和能力的影响模式，分为不同类型。

本文主要介绍6种不同的AI Agent。包括：

Simple reflex agents
Model-based agents
Goal-based agents
Utility-based agents
Learning agents
Hierarchical agents

Simple reflex agents

简单反射代理

简单的反射代理是一个可以根据预定义规则做出决策的AI系统。它只对当前的情况作出反应，而不考虑过去或未来的后果。

简单的反射代理适合于具有稳定的规则和直接行动的环境，因为它的行为纯粹是反应性的，对环境变化能够即时做出响应。

原理：

简单反射代理通过遵循条件、操作规则来执行其功能，该规则指定在特定条件下要采取的操作。

例子：

一个基于规则的系统，用于实现智能客服。如果客户的消息包含“密码重置”的关键字，则系统可以自动生成包含关于重置密码的指令的预定义响应。

优势：

简易：易于设计和实施，计算资源需求少，无需大量培训或复杂的硬件。
实施：能够实时响应环境变化。
高可靠：在提供输入的传感器准确且规则设计良好的情况下具备高可靠性。

弱势：

如果输入传感器有故障或规则设计不当，则容易出错。
没有记忆或状态，这限制了它们的适用范围。
无法处理部分未明确编程的环境变化。
受限于一组特定的操作，无法适应新的情况。

Model-based agents

基于模型的代理

基于模型的代理，基于当前的感知和表示不可观察单词的内部状态来执行动作。它基于两个因素来更新其内部状态：

世界是如何独立于Agent而演化的
Agent的行动如何影响世界

原理：

基于模型的代理遵循条件+动作规则，该规则指定在给定情况下要采取的适当动作。但与简单的反射代理不同，基于模型的代理还使用其内部状态来评估决策和行动过程中的条件。

基于模型的代理分四个阶段运行：

感知：它通过传感器感知世界的当前状态。
模型：它根据所见构建世界的内部模型。
原因：它使用自己的世界模型来决定如何根据一组预定义的规则或规则行事。
行为：代理人执行其选择的行为。

例子：

https://aws.amazon.com/cn/bedrock/

基于模型的代理最好的例子之一是：Amazon Bedrock。Amazon Bedrock是一项使用基础模型来模拟运营、获得见解并做出明智的决策，以实现有效的规划和优化的服务。

通过各种模型Bedrock可以获得洞察力，预测结果并做出明智的决策。它不断使用真实数据改进其模型，使其能够适应和优化其运营。

然后，Amazon Bedrock针对不同的场景进行规划，并通过模拟和调整模型参数来选择最佳策略。

优势：

基于对世界的理解做出快速有效的决策。
通过构建世界的内部模型，更好地做出准确的决策。
通过更新内部模型来适应环境变化。
通过使用其内部状态和规则来确定条件。

弱势：

建设和维护模型的计算成本可能很高。
这些模型可能无法很好地捕捉真实世界环境的复杂性。
模型无法预测可能出现的所有潜在情况。
模型需要经常更新以保持最新。
模型可能在理解能力和解释能力方面存在挑战。

Goal-based agents

基于目标的代理

基于目标的代理是利用环境信息来实现特定目标的人工智能智能体。他们使用搜索算法在给定的环境中找到实现目标的最有效路径。

这些代理也称为基于规则的代理，因为它们遵循预定义的规则来实现目标，并根据特定条件采取特定行动。

基于目标的代理易于设计，可以处理复杂的任务。它们可以用于各种应用，如机器人、计算机视觉和自然语言处理等。

与基本模型不同，基于目标的代理可以根据其期望的结果或目标来确定决策和行动过程的最佳路径。

原理：

给定一个计划，基于目标的代理会试图选择最佳策略来实现目标，然后使用搜索算法来找到到达目标的有效路径。

基于目标的代理的工作模式可以分为五个步骤：

感知：智能体使用传感器或其他输入设备感知其环境，以收集有关其周围环境的信息。
推理：智能体分析收集的信息，并决定最佳行动方案以实现其目标。
行动：智能体采取行动来实现其目标，例如移动或操纵环境中的对象。
评估：采取行动后，智能体评估其实现目标的进展，并在必要时调整其行动。
目标完成：一旦智能体实现了目标，它要么停止工作，要么开始为新的目标工作。

例子：

https://blog.google/technology/ai/bard-google-ai-search-updates/

Google Bard 是一个学习的媒介。从某种意义上来说它也是一个基于目标的代理。作为一个基于目标的代理，它的目标是为用户查询并提供高质量的响应。它选择的行动可能有助于用户找到他们所需要的信息，并实现他们获得准确和有用的回复的预期目标。

优势：

易于理解和实施。
有效实现特定目标。
易于根据目标完成情况评估绩效。
它可以与其他AI技术相结合，以创建更高级的代理。
非常适合定义明确的结构化环境。
它可用于各种应用，如：机器人、游戏和自动驾驶汽车。

弱势：

局限于特定的目标。
无法适应不断变化的环境。
对于具有太多变量的复杂任务无效。
需要丰富的领域知识来定义目标。

Utility-based agents

基于效用的代理

基于效用的代理是基于效用函数或价值最大化做出决策的AI代理。他们选择具有最高预期效用的行动，这个选择的结果决定了最终结果的好坏。这种模式更具灵活性、适应性地处理复杂情况下的任务。

基于效用的代理通常用于必须在多个选项中进行比较和选择，例如：资源如何分配、任务如何调度、游戏如何进行。

原理：

基于效用的代理旨在选择导致高效用状态的行为。为了实现这一点，它需要对其环境进行建模，可以是简单的，也可以是复杂的。

然后，根据概率分布和效用函数评估每个可能结果的期望效用。

最后，选择具有最高期望效用的动作，并在每个时间步长重复此过程。

例子：

https://www.anthropic.com/news/introducing-claude

Anthropic Claude是一个人工智能工具，其目标是帮助持卡人最大限度地提高他们使用卡片的奖励，是一个基于效用的代理。

为了实现其目标，它采用了一个效用函数，将代表成功或幸福的数值分配给不同的状态（持卡人面临的情况，如：购买、支付账单、兑换奖励等）。然后比较每个状态下不同行为的结果，并根据其效用值进行权衡决策。

此外，它使用启发式和人工智能技术来简化和改进决策。

优势：

可处理广泛的决策问题
从经验中学习并调整其决策策略
为决策类应用提供统一、客观的框架

弱势：

需要一个准确的环境模型，否则会导致决策错误
计算成本高，需要大量计算
没有考虑道德或伦理因素
人类很难理解和验证其过程

Learning agents

学习代理

学习代理是一种可以从过去的经验中学习并提高模型性能的模式。最初的代理具备基础的知识，并通过机器自动适应学习，不断成长。

学习代理包括四个主要组件：

学习元素：它负责学习，并根据从环境中获得的经验进行改进。
Citric：它通过代理的表现为预定义的标准向学习元素提供反馈。
绩效要素：它根据来自学习要素和评论家的信息选择并执行外部行动。
问题生成器：它建议采取行动，为学习元素创造新的信息体验，以提高其性能。

原理：

AI学习代理遵循一个基于反馈的观察、学习和行动的闭环。他们与环境互动，从反馈中学习，并为未来的互动修正自己的行为。

以下是这个闭环的工作过程：

观察：学习代理通过传感器或其他输入观察其环境。
学习：智能体使用算法和统计模型分析数据，从对其行为和性能的反馈中学习。
行动：基于它所学到的，智能体在其环境中采取行动，以决定如何行动。
反馈：智能体通过奖励、惩罚或环境提示接收有关其行为和表现的反馈。
适应：使用反馈，代理改变其行为和决策过程，更新其知识并适应其环境。

这个循环的过程会随着时间的推移而重复，使代理能够不断提高其性能并适应不断变化的环境。

例子：

https://dataconomy.com/2023/04/13/what-is-autogpt-and-how-to-use-ai-agents/

AutoGPT是学习代理的一个很好的例子，假设你想买一部智能手机。所以，你给予AutoGPT一个提示，让它对十大智能手机进行市场研究，提供关于它们利弊的见解。

为了完成你的任务，AutoGPT将通过探索各种网站和来源来分析十大智能手机的利弊。使用子代理程序评估网站的真实性。最后，它会生成一份详细的报告，总结调查结果，并列出十大智能手机公司的利弊。

优势：

Agent可以根据人工智能决策将想法转化为行动
学习代理可以遵循基本的命令，如：口头指令、执行任务
与执行预定义操作的经典代理不同，学习代理可以随着时间的推移而进化
人工智能代理考虑效用测量，使其更加现实

弱势：

可能产生倾向于有偏见或不正确的决策
开发和维护成本高
需要大量计算资源
依赖大量数据
缺乏人类的直觉和创造力功能

Hierarchical agents

层级代理

层级代理是一种层次化结构，可以包含高级代理、低级代理，高级代理监督低级代理。但是，这些级别可能会根据系统的复杂性而有所不同。

分层代理的应用场景如：机器人、制造、运输等。它擅长协调、处理多任务和子任务。

原理：

分层代理的工作方式就像一个公司的组织。它们将任务组织在由不同级别组成的结构化层次结构中，其中更高级别的代理监督并将目标分解为更小的任务。

随后，较低级别的代理执行这些任务并提供进度报告。

在复杂系统的情况下，可能会有中级代理人协调较低级别代理人与较高级别代理人的活动。

例子：

https://research.google/blog/unipi-learning-universal-policies-via-text-guided-video-generation/

Google的UniPi就是一种创新的AI分层代理，它利用文本和视频作为通用接口，使其能够在各种环境中学习各种任务。

UniPi包括一个生成指令和演示的高级策略和一个执行任务的低级策略。高级策略适应各种环境和任务，而低级策略通过模仿和强化学习进行学习。

这种层次结构使UniPi能够有效地将高级推理和低级执行相结合。

优势：

分层代理通过将任务分配给最合适的代理并避免重复工作来提供资源效率。
等级结构通过建立明确的权力和方向来加强沟通。
分层强化学习（HRL）通过降低动作复杂性和增强探索来改善代理决策。它采用高级操作来简化问题并促进代理学习。
层次分解通过更简洁和可重用地表示整个问题，提供了最小化计算复杂性的好处。

**弱势：
**

使用层次结构解决问题时会出现复杂性。
固定的层次结构限制了在变化或不确定环境中的适应性，阻碍了智能体调整或寻找替代方案的能力。
分层代理遵循自上而下的控制流，即使较低级别的任务已经就绪，也会导致瓶颈和延迟。
层次结构可能缺乏跨不同问题域的可重用性，需要为每个域创建新的层次结构，这既耗时又依赖于专业知识。
由于需要标记的训练数据和精细的算法设计，训练分层代理具有一定挑战性。由于其复杂性，应用标准的机器学习技术来提高性能变得更加困难。

总结

随着最近大语言模型的快速迭代升级，AI代理已不再是新事物，当我们把多个代理放在一起，创造一个团队的代理能力将远远超过一个单独的代理。从维持家庭温度的简单反射代理到驾驶汽车的更高级代理，AI代理将无处不在。未来每个人都可以更容易地创建自己的代理和自己的代理团队。它使人们能够在几分钟内完成可能需要几小时或几天的任务!

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。
作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】