常用AI Agents解析【大模型行业应用入门系列】

最新推荐文章于 2024-08-19 18:33:44 发布

泡椒竹笋面

最新推荐文章于 2024-08-19 18:33:44 发布

阅读量878

点赞数 25

文章标签：人工智能深度学习机器学习 langchain 产品经理自然语言处理 chatgpt

本文链接：https://blog.csdn.net/kaka0722ww/article/details/139677269

版权

近年来，大型语言模型（LLM）无疑是人工智能领域最具革命性突破之一。诸如GPT-3和ChatGPT等语言巨头展现了令人惊叹的自然语言理解和生成能力，为各个领域带来了全新的应用前景。然而，同时也不可忽视的是，LLM面临着一些固有的缺陷和挑战，正是这些问题推动了AI Agents的发展。

尽管LLM在处理自然语言任务方面表现出色，但它们仍然存在一些限制。首先，LLM在处理语义理解和推理方面的能力还有待提高。尽管它们可以生成流畅的文本，但在深入理解上下文、推断复杂关系和处理抽象概念方面，仍存在一定的局限性。这意味着在某些领域和任务中，LLM可能无法提供准确和全面的解决方案。

另外，LLM还面临着数据偏见和语言模式再现的问题。由于LLM通过大规模的文本数据进行训练，它们可能会反映出数据集中的偏见和不平衡。这可能导致LLM在处理某些敏感话题或特定群体的信息时出现偏见或歧视性。此外，LLM也容易受到训练数据中存在的错误或不准确信息的影响，从而影响其生成结果的准确性和可靠性。

此外，LLM的计算资源需求也是一个挑战。为了训练和部署大型语言模型，需要大量的计算资源和存储空间。这限制了普通开发人员和研究人员的使用范围，使得许多创新应用受到限制。

然而，正是这些固有的缺陷和挑战推动了AI Agents的发展。AI Agents是指结合了LLM和其他技术、方法或代理的系统，旨在克服LLM的局限性并提供更全面、准确的解决方案。通过结合不同的技术和代理，AI Agents能够弥补LLM的不足，提供更具深度和广度的智能应用。

1. 为什么需要AI Agents？

尽管大型语言模型（LLM）展现了令人惊人的语言理解和生成能力，但它在本质上仍然只是一个文本生成器。与之不同的是，AI Agents则是新一代综合智能体，具备自主感知、思考和行动的能力，被认为是实现人工通用智能（AGI）的关键突破口。

AI Agents具备感知环境的能力，借助各种传感器，能够对复杂环境进行实时感知和监测，而不仅仅局限于被动接收静态文本输入。这种环境感知能力使得AI Agents能够持续从客观世界中获取信息，而不仅仅局限于被动地运行在一个封闭的”黑箱”中。

此外，AI Agents具备决策执行的能力。借助先进的规划、推理等功能模块，AI Agents可以基于对环境的理解，自主地做出明智的决策，并通过执行器将这些决策转化为实际行动，从而对外界产生直接影响。这使得AI Agents不同于LLM等只能以被动文本输出的方式工作。

另一个AI Agents的关键能力是协作交互。通过协同技术和多Agent架构，AI Agents可以相互协作、分担任务，实现协同智能。这种分工合作的方式是传统的LLM等AI系统所无法达到的，极大地扩展了智能系统的应用边界。

最重要的是，AI Agents的发展是为了满足面向人工智能扩展（AFX）的本质需求。在实现人机协作、智能自动化、智能制造等新兴应用场景时，LLM提供的仅仅是作为单一环节的”语言服务”是远远不够的。我们迫切需要能够自主驱动业务流程的智能主体，即AI Agents。

AI Agents 体系参考架构

2. AI Agents是如何工作的？

AI Agent凭借其强大的计算能力和创新设计，正不断突破单一任务的局限，逐步走向通用智能的广阔领域。作为新一代智能体系，AI Agent植根于大型语言模型(LLM)等尖端AI技术，但又超越了单一模型的边界，展现出前所未有的智能潜力。

借助LLM 如 GPT-4的卓越语言理解和生成能力，AI Agent可高效解析用户的复杂需求，并生成高质量的任务计划。但它并不止步于此。AI Agent被赋予了自主感知、决策和执行的本领，能够主动获取多模态环境信息，基于先进的推理规划算法作出明智判断，并通过具体行动对外部世界产生实际影响。

作为一种综合智能体系，单一AI Agent的功能已远不限于简单的任务自动化，如航班预订、商品查找等。通过模块化设计和多Agent 架构，AI Agent可高效分工协作，合力攻克艰巨的系统性挑战。

接下来，我们来看一下AI Agent通用实现工作流，具体可参考如下所示：

AI Agent通用实现工作流

基于上述工作流参考图，我们可以看到，AI Agent的工作流程体现了人工智能系统与用户之间的紧密协作，充分展现了其自主性、互动性和主动性等核心优势。整个流程主要围绕如下核心环节展开，具体：

1、目标确立

一切智能活动的起点是明确目标。用户可以根据实际需求，为AI Agent设定明确而富有挑战性的目标，这为后续的任务规划和执行奠定了基础。无论是复杂的决策分析、工程设计，还是探索性的科研课题，都可以成为AI Agent的目标对象。

2、任务分解与规划

在获知目标后，AI Agent会动用强大的语义理解和逻辑推理能力，对目标进行透彻分析。基于对问题的全面把握，它将自动分解目标,制定出详细的任务列表。在此过程中，AI Agent会综合考虑多种约束条件和优化策略，对任务的执行顺序和优先级作出高效安排，从而为实现目标制定出合理的整体方案。

3、信息获取与决策

作为真正的”智能体”，AI Agent并非仅停留在任务规划的层面，更能主动驱动工作流程向前推进。它将主动从互联网、专家知识库、物联网等多渠道获取所需的各类信息资源，包括文本、图像、视频等多模态数据。在汇总对比分析获取的信息后，AI Agent将基于多维因素作出明智决策，对原有任务列表作出动态调整，删减或增补新的子目标。

4、行动执行与迭代

决策形成后，AI Agent将通过各种物理或虚拟执行器，将决策转化为实际行动，切实改变和影响外部世界。在执行过程中，AI Agent会实时监测反馈效果，对任务进展情况进行跟踪评估。如遇到新的阻碍或发现更优解，它将迭代优化任务方案，并随时调整行动策略，直至最终完美实现预期目标。

5、输出呈现与交互

目标达成后，AI Agent将以多种形式，包括文本、图像、虚拟现实等直观友好的方式，向用户呈现最终的输出结果。与此同时，人机交互也会持续进行，用户可以对结果进行评估，提出反馈意见，甚至重新制定新的目标，让AI Agent启动下一轮智能工作循环。

3. 五种常用的AI Agents

AI Agents的智能水平和能力决定了其划分类型,实现了功能的高度专属化和针对性。Russell & Norvig对AI Agents的分类具有启发意义,为我们进一步全面了解不同类型 Agents 的特点、优势和适用场景指明了方向。

每种类型的AI Agents都有其优点和局限性，使其适用于不同的应用程序和环境。这里，我们针对每种类型进行更详细的探索以便进一步深入了解它们的功能、优势和应用程序的适用性。根据具体的问题和需求，选择合适的AI Agents类型可以提高系统的性能和效果。

3.1 Simple Reflex Agents - 简单反射 Agents

作为最基础的类型，简单反射Agents仅根据当前对环境的感知作出决策和行动，没有任何历史数据或状态的参与。这种高度针对性的设计使其在实时响应和处理关键任务时表现出色，如工业控制、交通管理等，但由于其缺乏长期记忆和规划能力也成为其局限所在。

基于上述模型图可以看到：AI中的这些类型的代理，例如简单的反射代理和基于模型的反射代理，通过感知环境的当前状态来采取行动。它们的行动并不基于任何既定模型或先前的信息，而是依赖于对环境的充分观察。这些代理遵循条件行动规则，也就是说，往往根据感知到的条件来决定采取对应的行动。

打个比方，假设我们开车的过程中，看到路上有行人横穿马路时，潜意识地果断采取刹车措施以避免交通事故。像这种会根据事先设定的规则，不需要建立复杂的模型或依赖先前的信息，而是根据当前的感知情况来做出决策。

这种Reflex Agents的成功取决于对环境的充分观察。如果代理能准确感知到行人危险操作的存在，它将能够及时采取行动并避免车祸发生。然而，如果代理对环境的感知不准确或遗漏了一些重要信息，它可能无法做出适当的决策。

因此，这些反射代理类型在行动选择上依赖于当前的感知和条件规则，而不需要事先建立模型或依赖先前的信息。这种设计模式使得它们能够快速做出反应，适用于一些简单的、实时性强的任务和环境。然而，对于更复杂的问题和环境，可能需要更高级的代理类型，如基于目标的代理、基于效用程序的代理或学习代理，以便进行更深入的推理和决策。

3.2 Model-Based Reflex Agents - 基于模型的 Agents

基于模型的Agents展现出了更高层次的认知和推理能力，使其在处理动态环境和长期决策规划方面具备独特的优势。

与简单反射Agents只依赖当下感知信息做出反应不同，基于模型的Agents内置了对环境状态转移的描述性模型。借助这一内部模型，Agents能够追踪并记录系统的历史状态，对当前输入与已有状态进行关联分析，并基于此对可能的未来状态进行精确推导和预测。

这种对历史和未来的洞见赋予了基于模型的Agents卓越的长期规划能力。它们不再被动应对当下状况，而是能主动思考并设计出一系列行动序列，以期在未来达成特定目标。比如，在游戏AI领域，这一优势使得AI可以评估多步之后的局面，作出看似牺牲但最终获利的策略性布局。而在机器人路径规划中，则可以让AI提前规避潜在的障碍并选择最优路线。

除了预测和规划，基于模型的Agents还具备诸如因果推理、反事实分析等高级认知功能。通过对环境模型进行持续更新校准，它们能推断出状态变化的根源，分析决策行为的效果，从而获得对环境的更深刻理解，不断优化自身的决策逻辑。

当然，如此复杂的认知架构也给基于模型的Agents带来了巨大的计算开销。精细化的环境模型需要消耗大量的内存资源，而状态空间的爆炸性增长也使得预测和规划变得无比耗时耗力。对于实时性要求较高的应用场景而言，这无疑是一个不小的挑战。

3.3 Goal-Based Agents - 基于目标的 Agents

基于目标的Agents代表了人工智能系统向更高层次智能性的重要飞跃。相较于其他被动响应的Agents，它们展现出了卓越的主动性和自主性，真正体现了”智能”二字的内涵。

内在目标是基于目标Agents的核心驱动力。不同于简单地对环境做出反应，它们是基于内置的目标函数、偏好体系和期望效用最大化原则而自主行动的。这一内生动机赋予了基于目标的Agents以清晰的意识和意向——它们有自身的”想要”。

有了明确的目标，Agents就能够主动进行规划，设计出一系列有针对性的行为序列，以期在未来达成既定目标，实现预期收益的最大化。这种高度的主动性和前瞻性，使得基于目标的Agents不再被动地等待环境的改变，而是能够主动”出击”、影响和改变环境，展现出极强的主动适应能力。

同时，目标导向的行为决策也赋予了基于目标Agents卓越的灵活性。它们能够根据内在偏好和期望效用，在多种可选方案中自主作出判断和取舍。面对外部干扰，它们也能基于目标效用的最大化原则，对行为策略实时作出调整，展现出出色的适应性和鲁棒性。

值得一提的是，基于目标Agents的目标函数和效用体系可以灵活定义，从而具备广泛的通用适用性。我们不仅可以设定较为具体的功能型目标，如最大化生产效率、最小化物流成本等，还能赋予更为抽象的社会性目标，如促进人类幸福、维护生态环境平衡等，使得AI系统的应用场景得以极大拓展。

目前，基于目标Agents已在决策支持、过程自动化控制、智能调度等诸多领域展现出巨大的应用潜力和优越表现。未来，随着硬件算力的不断增长以及机器学习等技术的深入发展，基于目标Agents在自主学习获取目标和偏好体系方面也将取得突破性进展，使其逐步向通用人工智能的终极目标迈进。

可以预见，主动性、自主性和通用适应能力将成为未来智能系统的核心竞争力。基于目标的Agents作为人工智能主动智能的重要体现，必将为构建高度自治的智能化系统贡献重要力量，助力人类社会实现可持续发展。

3.4 Utility-based agents -基于效用的Agents

基于效用的Agents采用了一种全新的思路来应对AI系统在复杂环境下面临的计算挑战。与基于模型的Agents旨在建立精细的环境模型不同，效用型Agents通过直接映射历史观察结果到行为决策上，绕过了复杂的建模和规划环节，以更简洁高效的方式获取了最优策略。

效用型Agents的核心是利用函数逼近等技术，直接从大量的状态-行为数据中学习出一个端到端的策略函数。该策略函数能够将当前的环境状态输入映射为最优行为输出，完成从输入到输出的直接”黑箱”映射，而无需了解内部的状态转移细节。

这种直接学习的范式在处理高维、连续的状态行为空间时展现出了独特的优势。传统的基于模型方法在这种场景下会遭遇”维度灾难”和泛化性差等窘境，而效用型Agents则可以直接对这些高维数据进行端到端拟合，免去了精细建模的复杂度。

在诸如机器人控制、自动驾驶等领域，效用型Agents正成为不可或缺的重要力量。它们能够直接从大量的感知数据中学习出高维空间下的最优控制策略，使机器人运动更加灵活高效，无人驾驶系统对复杂交通环境有更强的适应性。

除了处理能力上的优势，效用型Agents在训练和部署时也展现出了更高的效率。免去了建模环节，只需要存储策略函数本身，大幅降低了内存和计算开销。而且一旦策略函数学习完成，就可以高效应用于各种工作环境，无需现场再次建模和推理。

然而，效用型Agents也面临着一些短板和局限性。由于高度专注于通过数据拟合来优化单一任务，它们往往缺乏通用知识和推理能力，只能在特定场景下发挥作用。而且大量的数据需求和黑箱特性，也给可解释性和人机交互带来了新的挑战。

3.5 Learning Agents - 学习Agents

Learning Agents代表了人工智能系统向真正”智能化”迈进的关键一步。它们不仅能够执行简单的感知-行为映射，更能将当前和历史经验融会贯通，形成内在的状态表征和知识库,并在此基础上进行学习、规划和决策，展现出强大的环境适应能力和性能提升潜力。

与其他被动型Agents相比，Learning Agents的根本区别在于具备”学习”的内生机制。它们不再被动接收外部输入，而是能主动将感知到的环境观察数据融入内部状态，并将其与过往经验相互印证、扩展和叠加，持续丰富和完善自身的知识模型。

Learning Agents之所以”学习”，是为了更好地”规划”。拥有了对环境的整体把握后，它们就能基于内部状态及学习到的经验，对未来可能的状态转移和收益进行预测和评估，从而作出明智的行为选择，以期获得最大的长期收益。这一规划能力使得Learning Agents不再被动应对当下，而是能够权衡长短，抓住机遇,主动出击。

自动驾驶正是Learning Agents强大功能的杰出体现。作为一个典型的基于规划的智能系统，自动驾驶汽车需要时刻感知复杂多变的道路状况、车辆位置和周边环境，并将这些信息融入内部模型中。在此基础上，它将对未来可能的交通情况、潜在碰撞风险等进行分析预判，并结合车辆当前状态、能耗等因素作出综合考虑，自动选择最优的行驶路径、车速、温度控制策略等，以实现安全、高效、舒适的出行体验。

如何学习大模型 AGI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-

👉AGI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉AGI大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉AGI大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

泡椒竹笋面

关注

25
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
常用AI Agents解析【大模型行业应用入门系列】

近年来，大型语言模型（LLM）无疑是人工智能领域最具革命性突破之一。诸如GPT-3和ChatGPT等语言巨头展现了令人惊叹的自然语言理解和生成能力，为各个领域带来了全新的应用前景。然而，同时也不可忽视的是，LLM面临着一些固有的缺陷和挑战，正是这些问题推动了AI Agents的发展。尽管LLM在处理自然语言任务方面表现出色，但它们仍然存在一些限制。首先，LLM在处理语义理解和推理方面的能力还有待提高。尽管它们可以生成流畅的文本，但在深入理解上下文、推断复杂关系和处理抽象概念方面，仍存在一定的局限性。
复制链接

扫一扫