AI Agent 深度解析：潜力与挑战并存的智能新世界

最新推荐文章于 2024-06-07 10:38:52 发布

可信AI进展

最新推荐文章于 2024-06-07 10:38:52 发布

阅读量702

点赞数 23

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_56647251/article/details/138998512

版权

文章推荐

GPT-4o重磅发布，第一时间用户测评，OpenAI也存在夸张宣传？

蚁起同乐！蚂蚁“510亲友日”AI心愿奇妙之旅

OpenAI直播倒计时，GPT-5被证缺席，GPT-3.5至5，一文看懂AI进化大不同！

本文来自蚂蚁的吴俊去年参加QCon后的总结，将围绕AI Agent展开叙述，重点介绍了当前AI Agent的应用和挑战。以下为原文：

**作者简介：**吴俊（弈德），蚂蚁集团消金风管技术部AI工程团队TL，当前负责风管大模型应用工程，承担风管部分业务场景的大模型评测，大模型推理优化及大模型应用落地。

本次QCon重要主角毫无疑问非大模型莫属，两天关于大模型的三个方面，也正好能对应当前大模型架构的经典分层，即：应用层、工具层、模型层&AI Infra：

**应用层-大模型应用：**主要以RAG&AI Agent初代的模式透出，主要的落地场景包括内部数据分析-GBI即生成式BI、研发辅助提效-生成式Code、面向外部用户和小二的知识库问答-如ChatPDF；
**工具层-应用构建能力：**主要介绍如何高效快速去构建自己场景的大模型应用（重点在AI Agent的构建），有应用构建工具-LangChain， Agent开发框架如：MetaGPT，MaaS平台如ModelScop-Agent&Agents for Amazon Bedrock等；
**模型及基建层-大模型优化加速：**核心在模型推理加速上的探索，未来以应对有限算力情况下，大模型应用规模化投产的性能和安全性诉求，目前也是业界争相要探索突破的重点。

AI Agent是什么？

AI Agent的定义

AI Agent是人工智能代理（Artificial Intelligence Agent）的概念，它是一种能够感知环境、进行决策和执行动作的智能实体，通常基于机器学习和人工智能技术，具备自主性和自适应性，在特定任务或领域中能够自主地进行学习和改进。一个更完整的Agent，一定是与环境充分交互的，它包括两部分——一是Agent的部分，二是环境的部分。此刻的Agent就如同物理世界中的「人类」，物理世界就是人类的「外部环境」。

AI Agent 的主要组成部分

在LLM赋能的自主agent系统中(LLM Agent)，LLM充当agent大脑的角色，并与若干关键组件协作。

规划（planning）

子目标分解：agent将大任务拆分为更小的可管理的子目标，使得可以有效处理复杂任务。
反思与完善：agent对历史动作可以自我批评和自我反思，从错误中学习并在后续步骤里完善，从而改善最终结果的质量。

记忆（Memory）

短期记忆：上下文学习即是利用模型的短期记忆学习。
长期记忆：为agent提供保留和召回长期信息的能力，通常利用外部向量存储和检索实现。

工具使用（tool use）

对模型权重丢失的信息，agent学习调用外部API获取额外信息，包括当前信息、代码执行能力、专有信息源的访问等。

行动（Action）

行动模块是智能体实际执行决定或响应的部分。面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等。

人机协同模式

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理，还将改变人机协同的模式，带来更为广泛的人机融合。生成式AI的智能革命演化至今，从人机协同呈现了三种模式：

嵌入模式：

用户通过语言交流与AI合作，使用提示词设定目标，AI协助完成任务，比如用户使用生成式AI创作小说、音乐作品、3D内容等。在这种模式下，AI执行命令，人类是决策者和指挥者。

副驾驶模式：

人类和AI是合作伙伴，共同参与工作流程。AI提供建议、协助完成工作，比如在软件开发中为程序员编写代码、检测错误或优化性能。AI是知识丰富的合作伙伴，而非简单的工具。

智能体模式：

人类设定目标和提供资源，AI独立承担大部分工作，人类监督进程和评估结果。AI体现了自主性和适应性，接近独立行动者，人类扮演监督者和评估者的角色。智能体模式比嵌入模式和副驾驶模式更高效，可能成为未来人机协同的主要模式。

在智能体的人机协同模式下，每个普通个体都有可能成为超级个体，拥有自己的AI团队和自动化任务工作流。他们可以与其他超级个体建立更智能化、自动化的协作关系。现在业内已经有一些一人公司和超级个体在积极探索这一模式。

AI Agent应用

当前，AI Agent已是公认大语言模型落地的有效方式之一，它让更多人看清了大语言模型创业的方向，以及LLM、Agent与已有的行业技术融合应用的前景。目前大语言模型的Agent，在代码生成、数据分析、通用问题解答、科学研究等多个领域内，都有一众开源或闭源项目，可见其火爆程度。

业界相关AI Agent举例

AI Agent应用

本文将核心聚焦在三类应用或场景：ABI/GBI生成式BI或是数据分析；Code Agent代码助手；基于RAG技术的知识问答。

01. BI（Data Analysis） Agent - 生成式BI

LLM在金融智能应用研发实战与探索

在生成式BI（Data Agent）方面，白天专题演讲听了由腾讯云的技术总监分享的主题，他分享了txt2SQL的智能问答系统方案设计，整体准确度能达到惊人的99%（纯大模型生成且复杂度不高的SQL准确率大概在80%+）。但其实质上他们的方案主要还是依靠工程能力，并未完全使用大模型的NL2SQL的生成能力，而是结合RAG，通过Query去匹配RAG里的常见的查询问题及对应的SQL示例，然后再基于检索到的SQL去与数据源联通。

数势大模型SwiftAgent在企业经营分析领域的应用

由数势科技/金融数字化产品总经理，分享的同类DataAgent产品-swiftAgent，将传统的BI手动全流程产品（GUI）通过大模型进行基于语言的（LUI）模式重构，包括交互的指标问询、智能的洞察归因、分析报告自动生成、指标的全生命周期管理等能力。

AIGC与数据分析融合打造数据消费新模式

网易数帆的大数据解决方案专家分享了网易在Data Agent方面的工作。面对大模型出错的情况，他们核心瞄可信方向，做了很多产品交互上的工作，去保障NL2SQL查询出的数据可信：

需求可理解：通过自研NL2SQL专属大模型，针对相关数据相关函数如同比/环比/分组排序等函数进行增强。
过程可验证：通过交互界面上以自然语言的方式生成查询的解释，让用户容易去识别模型生成过程的对错，去保障生成过程的可信。
用户可干预：基于查询解释，用户可手动在查询结果的查询条件上进行调整查询条件，用确定性的手段获取正确性的结果。
结果可运营：通过实时针对结果，进行正误标记反馈持续优化大模型的生成正确性。

另外还有一些企业进行了有关NL2SQL的场景尝试，这里不做一一列举。

02. Coding Agent

因为前期对Github Copilot、codeGeex、CodeFuse等做过深入的使用体验，核心功能是帮助程序员进行代码生成、代码优化、代码检测等研发辅助提效，场景上核心关注的更多是代码安全性的问题。这里就不做赘述，相关的分享和PPT下载链接如下：

aiXcoder 代码大模型在企业的应用实践：

https://qcon.infoq.cn/2023/shanghai/presentation/5683

基于CodeFuse的下一代研发探索：

https://qcon.infoq.cn/2023/shanghai/presentation/5681

大模型落地到代码助手场景的探索实践：

https://qcon.infoq.cn/2023/shanghai/presentation/5690

百度大模型驱动下的智能代码助手提效实践：

https://qcon.infoq.cn/2023/shanghai/presentation/5679

03. 基于RAG的知识问答

由于篇幅的关系，RAG相关的大模型应用，将在另外一篇文章中进行详细阐述和分解。

挑战

从技术上看，AI Agent的发展仍然缓慢，大多数应用仍处于POC或理论实验阶段。目前几乎很少能看到能够在复杂领域场景中完全自主的规模化AI Agent应用。主要原因还是充当AI Agent大脑的LLM模型仍不够强大。即使是最强大的GPT4，在应用时仍面临一些问题：

1.上下文长度有限，限制了历史信息、详细说明、API调用上下文和响应的包含；

2.长期规划和任务分解仍然具有挑战性；

3.当前Agent系统依赖自然语言作为与外部组件之间的接口，但模型输出的可靠性值得怀疑。

此外，AI Agent的成本较高，特别是多智能体系统。在很多场景中，使用AI Agent与Copilot模式相比，效果提升不明显，或者无法覆盖增加的成本。大部分AI Agent技术仍处于研究阶段。最后，AI Agent可能面临诸如安全性与隐私性、伦理与责任、经济和社会就业影响等多方面的挑战。

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育，覆盖大规模图学习，因果推理，知识图谱，大模型等技术领域，欢迎扫码关注，解锁更多 AI 资讯～

可信AI进展

关注

23
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
AI Agent 深度解析：潜力与挑战并存的智能新世界

AI Agent是人工智能代理（Artificial Intelligence Agent）的概念，它是一种能够感知环境、进行决策和执行动作的智能实体，通常基于机器学习和人工智能技术，具备自主性和自适应性，在特定任务或领域中能够自主地进行学习和改进。一个更完整的Agent，一定是与环境充分交互的，它包括两部分——一是Agent的部分，二是环境的部分。此刻的Agent就如同物理世界中的「人类」，物理世界就是人类的「外部环境」。
复制链接

扫一扫