AI Agent，大模型重要落地方向

最新推荐文章于 2024-09-13 19:41:31 发布

IT猫仔

最新推荐文章于 2024-09-13 19:41:31 发布

阅读量911

点赞数 18

文章标签：人工智能语言模型架构搜索引擎机器学习

本文链接：https://blog.csdn.net/2301_82275412/article/details/141071648

版权

01 什么是 AI Agent ？

OpenAI将AI Agent定义为，以大语言模型为大脑驱动，具有自主理解感知、规划、记忆和使用工具的能力，能自动化执行完成复杂任务的系统。 在计算机、人工智能专业技术领域，一般将agent译为“智能体”，即是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性（慎思性）、认知性等一种或多种智能特征的软件或硬件实体。它具有记忆、规划、行动和使用工具四个主要模块。通过四个模块相互配合使智能体能够在更广泛的情境中采取行动和作出决策，以更智能、更高效的方式执行复杂任务。

1、记忆模块是AI Agent的存储系统，负责存储和检索历史信息、经验、知识以及当前状态。这个模块使得AI Agent能够从过去的经验中学习，并利用这些信息来指导未来的决策和行动。记忆模块包括短期记忆和长期记忆，以及用于特定任务的数据库或知识库。AI Agent如果要用于复杂的任务规划和执行，必须要确保能够清晰地记忆各个任务的状态、关系。

2、规划模块具有事前规划和事后反思两个阶段。在事前规划阶段，这里涉及对未来行动的预测和决策制定，如执行复杂任务时，智能体将大目标分解为更小的、可管理的子目标，从而能够高效地规划一系列步骤或行动，以达到预期结果。在事后反思阶段，智能体具有检查和改进制定计划中不足之处的能力，反思错误不足并吸取经验教训进行完善，形成和加入长期记忆，帮助智能体之后规避错误、更新其对世界的认知。

3、工具使用模块指的是智能体能够利用外部资源或工具来执行任务。如学习调用外部API来获取模型权重中缺失的额外信息，包括当前信息、代码执行能力、对专有信息源的访问等，以此来补足LLM自身弱项。例如LLM的训练数据不是实时更新的，这时可以使用工具访问互联网来获取最新信息，或者使用特定软件来分析大量数据。智能体使用工具比人类更为顺手和高效，通过调用不同的API或工具，完成复杂任务和输出高质量结果，这种使用工具的方式也代表了智能体的一个重要特点和优势。

4、行动模块是智能体实际执行决定或响应的部分。面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等。

02 AI Agent带来更为广泛的人机融合

生成式AI的智能革命演化逐渐呈现出嵌入（embedding）、副驾驶（Copilot）、智能体（Agents）三种模式。

1、嵌入模式：用户通过与AI进行语言交流，使用提示词来设定目标，然后AI协助用户完成这些目标，比如普通用户向生成式AI输入提示词创作小说、音乐作品、3D内容等。在这种模式下，AI的作用相当于执行命令的工具，而人类担任决策者和指挥者的角色，也就是人类完成大部分任务。

2、副驾驶模式：2021年微软在GitHub首次引入了Copilot的概念。2023年5月，微软在大模型的加持下，Copilot迎来全面升级，推出Dynamics 365 Copilot、Microsoft 365 Copilot和Power Platform Copilot等。在这种模式下，人类和AI更像是合作伙伴，共同参与到工作流程中，各自发挥作用。

3、智能体模式：人类设定目标和提供必要的资源（例如计算能力），然后AI独立地承担大部分工作，最后人类监督进程以及评估最终结果。

如果大语言模型的Copilot是“副驾驶”，那自主拆解并执行任务的Agent可以称为“自动驾驶”，用户只需要上车告诉它目的地。Copilot模式强调一个人在完成整个业务流程的过程中，每一步都可以获得AI辅助。这种模式的实用性非常强，可以用来生成面试问题、评估回答等 。Agent比Copilot模式更具自主性，在接到人提出的目标后，可以自行计划并完成任务，还有可能去探索周围环境。

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理，还将改变人机协同的模式，带来更为广泛的人机融合。

03 AI Agent将改变软件的游戏规则

AI Agent正在重新定义软件。比尔·盖茨认为，AI Agent将彻底颠覆软件行业，将影响我们如何使用软件以及如何编写软件。

AI Agent将使软件架构的范式从面向过程迁移到面向目标。现有的软件（包括APP）通过一系列预定义的指令、逻辑、规则和启发式算法将流程固定下来，以满足软件运行结果符合用户的预期，即用户按照指令逻辑一步一步操作达成目标。这样一种面向过程的软件架构具有高可靠性、确定性。但是，这种面向目标的架构只能应用于垂直领域，而无法普遍应用到所有领域，因此标准化和定制化之间如何平衡也成为SaaS行业面对的难题之一。

AI Agent范式将原本由人类主导的功能开发，逐渐迁移为以AI为主要驱动力。以大模型为技术基础设施，Agent为核心产品形态，把传统软件预定义的指令、逻辑、规则和启发式算法的任务层级演变成目标导向的智能体自主生成。这样一来，原本的架构只能解决有限范围的任务，未来的架构则可以解决无限域的任务。未来的软件生态，不仅是最上层与所有人交互的媒介是Agent，整个产业的发展，无论是底层技术，商业模式，中间组件，甚至是人们的生活习惯和行为都会围绕Agent来改变，这就是Agent-Centric时代的开启。

04 AI Agent的展望

AI Agent是人工智能成为基础设施的重要推动力。回顾技术发展史，技术的尽头是成为基础设施，比如电力成为像空气一样不易被人们察觉，但是又必不可少的基础设施，还如云计算等。

当然这个要经历以下三个阶段：创新与发展阶段–新技术被发明并开始应用；普及与应用阶段–随着技术成熟，它开始被广泛应用于各个领域，对社会和经济产生深远影响；基础设施阶段–当技术变得普及到几乎无处不在，它就转变成了一种基础设施，已经成为人们日常生活中不可或缺的一部分。几乎所有的人都认同，人工智能会成为未来社会的基础设施。而智能体正在促使人工智能基础设施化。这不仅得益于低成本的Agent软件生产优势，而且因为Agent能够适应不同的任务和环境，并能够学习和优化其性能，使得它可以被应用于广泛的领域，进而成为各个行业和社会活动的基础支撑。

Agent下一步可能会朝着两个方向同时迭代。一是与人协助的智能体，通过执行各种任务来协助人类，侧重工具属性；二是拟人化方向的迭代，能够自主决策，具有长期记忆，具备一定的类人格特征，侧重于类人或超人属性。

传统上，我们所见的AI Agent主要围绕着文本处理和理解展开。然而，随着多模态技术的突破，未来的Agent将不再仅限于文本，而是会融入多模态世界中，具备图像、声音和感觉等多种模态的理解能力。

在开发基于文本的Agent时，我们可能不需要完全废弃原有的开发框架，但当多模态的创新时刻来临，Agent的功能和性能将呈现出显著的差异。

例如，GPT的未来版本可能会集成更强大的图像和其他多模态理解功能，这些功能最好是直接内置在模型中，而非依赖于外部模块的调用，以确保模型的高效和协同。

未来半年内，我们有望见证多模态大模型的诞生。而多模态Agent的推出可能会比我们预想的更为迅速。一方面，许多大公司正在如火如荼地进行多模态技术的研发，这种量变的积累可能很快就会催生质变，推动实质性的突破。另一方面，人们期望能拥有类似人类助手的Agent ，不仅能与我们沟通，还能看、听和感知，实现多感官、多模态的交互。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：