AI Agent深度解析：潜力与挑战并存的智能新世界

最新推荐文章于 2024-09-03 17:37:15 发布

菜鸟Python码农

最新推荐文章于 2024-09-03 17:37:15 发布

阅读量629

点赞数 28

文章标签：人工智能 langchain 开发语言 prompt github agent AI

本文链接：https://blog.csdn.net/huang9604/article/details/139002890

版权

本文来自蚂蚁的吴俊去年参加 QCon 后的总结，将围绕 AI Agent 展开叙述，重点介绍了当前 AI Agent 的应用和挑战。以下为原文：

作者简介： 吴俊（弈德），蚂蚁集团消金风管技术部 AI 工程团队 TL，当前负责风管大模型应用工程，承担风管部分业务场景的大模型评测，大模型推理优化及大模型应用落地。

本次 QCon 重要主角毫无疑问非大模型莫属，两天关于大模型的三个方面，也正好能对应当前大模型架构的经典分层，即：应用层、工具层、模型层 & AI Infra：

应用层 - 大模型应用： 主要以 RAG&AI Agent 初代的模式透出，主要的落地场景包括内部数据分析 - GBI 即生成式 BI、研发辅助提效 - 生成式 Code、面向外部用户和小二的知识库问答 - 如 ChatPDF；
工具层 - 应用构建能力： 主要介绍如何高效快速去构建自己场景的大模型应用（重点在 AI Agent 的构建），有应用构建工具 - LangChain， Agent 开发框架如：MetaGPT，MaaS 平台如 ModelScop-Agent&Agents for Amazon Bedrock 等；
模型及基建层 - 大模型优化加速： 核心在模型推理加速上的探索，未来以应对有限算力情况下，大模型应用规模化投产的性能和安全性诉求，目前也是业界争相要探索突破的重点。

AI Agent 是什么？

AI Agent 的定义

AI Agent 是人工智能代理（Artificial Intelligence Agent）的概念，它是一种能够感知环境、进行决策和执行动作的智能实体，通常基于机器学习和人工智能技术，具备自主性和自适应性，在特定任务或领域中能够自主地进行学习和改进。一个更完整的 Agent，一定是与环境充分交互的，它包括两部分 —— 一是 Agent 的部分，二是环境的部分。此刻的 Agent 就如同物理世界中的「人类」，物理世界就是人类的「外部环境」。

AI Agent 的主要组成部分

在 LLM 赋能的自主 agent 系统中 (LLM Agent)，LLM 充当 agent 大脑的角色，并与若干关键组件协作。

规划（planning）

子目标分解：agent 将大任务拆分为更小的可管理的子目标，使得可以有效处理复杂任务。
反思与完善：agent 对历史动作可以自我批评和自我反思，从错误中学习并在后续步骤里完善，从而改善最终结果的质量。

记忆（Memory）

短期记忆：上下文学习即是利用模型的短期记忆学习。
长期记忆：为 agent 提供保留和召回长期信息的能力，通常利用外部向量存储和检索实现。

工具使用（tool use）

对模型权重丢失的信息，agent 学习调用外部 API 获取额外信息，包括当前信息、代码执行能力、专有信息源的访问等。

行动（Action）

行动模块是智能体实际执行决定或响应的部分。面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等。

人机协同模式

基于大模型的 Agent 不仅可以让每个人都有增强能力的专属智能助理，还将改变人机协同的模式，带来更为广泛的人机融合。生成式 AI 的智能革命演化至今，从人机协同呈现了三种模式：

嵌入模式：

用户通过语言交流与 AI 合作，使用提示词设定目标，AI 协助完成任务，比如用户使用生成式 AI 创作小说、音乐作品、3D 内容等。在这种模式下，AI 执行命令，人类是决策者和指挥者。

副驾驶模式：

人类和 AI 是合作伙伴，共同参与工作流程。AI 提供建议、协助完成工作，比如在软件开发中为程序员编写代码、检测错误或优化性能。AI 是知识丰富的合作伙伴，而非简单的工具。

智能体模式：

人类设定目标和提供资源，AI 独立承担大部分工作，人类监督进程和评估结果。AI 体现了自主性和适应性，接近独立行动者，人类扮演监督者和评估者的角色。智能体模式比嵌入模式和副驾驶模式更高效，可能成为未来人机协同的主要模式。

在智能体的人机协同模式下，每个普通个体都有可能成为超级个体，拥有自己的 AI 团队和自动化任务工作流。他们可以与其他超级个体建立更智能化、自动化的协作关系。现在业内已经有一些一人公司和超级个体在积极探索这一模式。

AI Agent 应用

当前，AI Agent 已是公认大语言模型落地的有效方式之一，它让更多人看清了大语言模型创业的方向，以及 LLM、Agent 与已有的行业技术融合应用的前景。目前大语言模型的 Agent，在代码生成、数据分析、通用问题解答、科学研究等多个领域内，都有一众开源或闭源项目，可见其火爆程度。

业界相关 AI Agent 举例

AI Agent 应用

本文将核心聚焦在三类应用或场景：ABI/GBI 生成式 BI 或是数据分析；Code Agent 代码助手；基于 RAG 技术的知识问答。

01. BI（Data Analysis） Agent - 生成式 BI

LLM 在金融智能应用研发实战与探索

在生成式 BI（Data Agent）方面，白天专题演讲听了由腾讯云的技术总监分享的主题，他分享了 txt2SQL 的智能问答系统方案设计，整体准确度能达到惊人的 99%（纯大模型生成且复杂度不高的 SQL 准确率大概在 80%+）。但其实质上他们的方案主要还是依靠工程能力，并未完全使用大模型的 NL2SQL 的生成能力，而是结合 RAG，通过 Query 去匹配 RAG 里的常见的查询问题及对应的 SQL 示例，然后再基于检索到的 SQL 去与数据源联通。

数势大模型 SwiftAgent 在企业经营分析领域的应用

由数势科技 / 金融数字化产品总经理，分享的同类 DataAgent 产品 - swiftAgent，将传统的 BI 手动全流程产品（GUI）通过大模型进行基于语言的（LUI）模式重构，包括交互的指标问询、智能的洞察归因、分析报告自动生成、指标的全生命周期管理等能力。

AIGC 与数据分析融合打造数据消费新模式

网易数帆的大数据解决方案专家分享了网易在 Data Agent 方面的工作。面对大模型出错的情况，他们核心瞄可信方向，做了很多产品交互上的工作，去保障 NL2SQL 查询出的数据可信：

需求可理解：通过自研 NL2SQL 专属大模型，针对相关数据相关函数如同比 / 环比 / 分组排序等函数进行增强。
过程可验证：通过交互界面上以自然语言的方式生成查询的解释，让用户容易去识别模型生成过程的对错，去保障生成过程的可信。
用户可干预：基于查询解释，用户可手动在查询结果的查询条件上进行调整查询条件，用确定性的手段获取正确性的结果。
结果可运营：通过实时针对结果，进行正误标记反馈持续优化大模型的生成正确性。

另外还有一些企业进行了有关 NL2SQL 的场景尝试，这里不做一一列举。

02. Coding Agent

因为前期对 Github Copilot、codeGeex、CodeFuse 等做过深入的使用体验，核心功能是帮助程序员进行代码生成、代码优化、代码检测等研发辅助提效，场景上核心关注的更多是代码安全性的问题。这里就不做赘述，相关的分享和 PPT 下载链接如下：

aiXcoder 代码大模型在企业的应用实践：

https://qcon.infoq.cn/2023/shanghai/presentation/5683

基于 CodeFuse 的下一代研发探索：

https://qcon.infoq.cn/2023/shanghai/presentation/5681

大模型落地到代码助手场景的探索实践：

https://qcon.infoq.cn/2023/shanghai/presentation/5690

百度大模型驱动下的智能代码助手提效实践：

https://qcon.infoq.cn/2023/shanghai/presentation/5679

03. 基于 RAG 的知识问答

由于篇幅的关系，RAG 相关的大模型应用，将在另外一篇文章中进行详细阐述和分解。

挑战

从技术上看，AI Agent 的发展仍然缓慢，大多数应用仍处于 POC 或理论实验阶段。目前几乎很少能看到能够在复杂领域场景中完全自主的规模化 AI Agent 应用。主要原因还是充当 AI Agent 大脑的 LLM 模型仍不够强大。即使是最强大的 GPT4，在应用时仍面临一些问题：

上下文长度有限，限制了历史信息、详细说明、API 调用上下文和响应的包含；
长期规划和任务分解仍然具有挑战性；
当前 Agent 系统依赖自然语言作为与外部组件之间的接口，但模型输出的可靠性值得怀疑。

此外，AI Agent 的成本较高，特别是多智能体系统。在很多场景中，使用 AI Agent 与 Copilot 模式相比，效果提升不明显，或者无法覆盖增加的成本。大部分 AI Agent 技术仍处于研究阶段。最后，AI Agent 可能面临诸如安全性与隐私性、伦理与责任、经济和社会就业影响等多方面的挑战。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍