【大模型应用】AI Agent企业应用助手总结

数亦有术

已于 2024-05-09 13:34:49 修改

阅读量841

点赞数 13

文章标签：人工智能

于 2024-04-20 21:21:52 首次发布

本文链接：https://blog.csdn.net/weixin_40929413/article/details/138010358

版权

一、AI Agent概念介绍

AI Agent即系统型超级应用，智能代理能够通过零样本或少样本的提示，或者通过人类的反馈来学习如何选择以及调用工具。

感知：Agent从环境中收集信息并从中提取相关知识的能力。

规划：Agent为了某一目标而做出的决策过程。

行动：基于环境和规划做出的动作。

赛道类型：元宇宙型Agent，与现实场景结合，比如招聘、营销、空调管理、运维状态监控、具身机器人（如机械臂、自动驾驶等）。

质量优势：多个职能代理面对同一个问题时可能会产生不同的观点，每个智能代理通过彼此之间的反馈与自身知识的结合，不断更新自己的答案，能够有效减少幻觉或虚假信息的产生，从而提高回复的可靠性与忠实性。

数量优势：基于分工原则，每个智能代理专门从事特定的工作，通过结合多个职能代理的技能优势和领域知识，能够有效提高系统的效率和通用性。

AIAgent是一个以任务驱动的具备自主能力的智能体，不仅需要大模型这个核心“大脑”，也需要任务规划、记忆与外部工具使用等能力。

二、AIAgent类型

对于AIAgent智能体在企业应用中落地，分为以下几类：创作与生成类助手、企业知识助手、数据分析助手、应用/工具助手、Web操作助手、自定义流程助手。

1.创作与生成类助手

以内容创作生成为主要能力的AI Agent从技术上分为两种：

（1）单Agent的内容生成

简单地将大模型的生成能力通过API集成到其他应用与业务流程中，替代或简化原来由人工完成的部分工作。具体应用场景如下：

在线培训管理系统中，利用AI自动根据课件创建考题/考卷；
在数字营销流程中，利用AI生成精确营销话术甚至撰写营销方案；
在市场分析场景中，AIAgent基于互联网搜索或开放数据生成市场分析报告；
在电子商务企业借助AI自动批量生成商品摘要；
媒体行业通过AI生成新闻摘要；
学术平台借助AI生成论文摘要

以上类型的AI助手简单的借助Prompt工程即可实现（与C端个人助手并无本质区别）

（2）基于多Agent协作（可能还有人类）的内容生成

典型的是虚拟机器人软件公司，由AIAgent担任多个软件开发岗位，通过相互协作完成某个软件开发任务。这种多Agent协作型的助手可以借助Multi-Agents框架来简化开发实现。比如MetaGPT，可以根据自然语言描述的开发任务，组建Agent团队（PM、架构师、程序员、QA等），遵循SOP并最终输出完整软件开发的成果（文档、代码、API说明等）。

2.企业知识助手

企业知识助手，即通过“外挂”私有知识库来扩充大模型的知识储备，以提供基于自然语言的、对话式的企业私有知识访问（对应到AIAgent的基本能力之一：持久化记忆）。用以解决通用模型在面向企业应用时领域知识不足导致的幻觉问题。

（1）技术实现原理

企业知识助手通常借助于大模型的RAG（检索增强生成）方案来实现，其本质上也是一种提示工程：借助于在大模型输入时携带相关的私有知识上下文，让大模型理解、总结、整理并回答用户问题。只是这里的私有知识上下文需要借助嵌入模型（EmbrddingModel）、向量数据库。

（2）技术实现方式

基于RAG方案的AI助手可以通过LangChain或者Llamalndex大模型主流应用开发基础框架。这两个基础框架对大量的模型、文档加载器、向量数据库、嵌入模型等做了抽象封装，并对RAG应用过程中的知识检索、Prompt组装等过程做了简化，可以大大简化开发过程。

另一类技术实现方式是选择具有开箱即用能力的RAG应用构建平台。相对基础开发框架来说，提供了更完善的RAG应用构建工具，比如私有知识库的管理维护、测试、对话流程编排、提示词自定义等能力。这里推荐两个项目，一个是基于Langchain构建的Langcahin-Chatchat；另一个是 FastGPT，后者有用于商业运营的SaaS应用，可以自行体验。

3.数据分析助手

数据分析与商业智能(BI)在中大型企业的日常运营中的重要性母庸置疑。传统BI工具使用门槛高、过度依赖技术部门、结果产出周期长的问题可以借助大模型的能力得以缓解。

基于大模型的数据分析助手（DataAgent）支持通过自然语言获取数据、分析数据与展示数据。数据源形式多样化，支持本地Excel数据、关系型数据库、非结构化数据。技术实现途径分为：自然语言转API、自然语言转SQL、代码解释器（转代码）。

推荐除Langchain之外构建数据分析助手的工具/项目：

DB-GPT：一个国内团队以重新定义数据交互为使命的开源项目，包含完整的前后台项目实现，支持多场景数据分析交互。涵盖数据库分析、Excel分析、仪表盘分析等。该开源项目支持后端大模型可伸缩管理架构，同时专注于微调Text2SQL模型与评估。
OpenAgents：一个来自香港团队的开源项目，DataAgent是其中一个重要的Agent实现。该项目支持对本地结构化数据文档的数据分析，其特点是提供了基于SQL、基于代码解释器两种数据分析方法供选择。
Openlnterpreter：当前最强大的开源代码解释器，完美地复刻了 OpenAl的代码解释器实现，但是可以在本地部署与使用，利用它来实现本地的数据分析与可视化是一个不错的选择。

4.应用工具助手

企业应用中的AI助手需要与现有应用（CRM、OA系统）做集成与交互，以完成用户特定任务或者驱动业务流程。比如：你可以让AI调用办公系统接口，帮你在协同办公系统中提交付款申请；你可以通过调用第三方平台公开接口，来获得最新某上市公司的财务报告。这些是AIAgent另一项重要能力：工具使用。

AI应用工具助手可以把自然语言转换成企业应用或者互联网开放API的Agent形式。当然，在复杂任务场景下的这种调用往往不是单一的。这就要求大模型有强大的对自然语言转API的能力，在实际使用中，其主要体现以下两个方面：能否根据上下文理解，精确匹配到需要使用的API（一个或者多个）；能否准确地提取或生成每个AP的调用参数。

在构建企业基于大模型的应用助手时，需求注意API过多这一工程问题。过多的API描述可能会导致上下文溢出，同时大量API相互干扰，会提高大模型推理时的错误率。可考虑的优化方案是借助向量库语义搜索，每次只检索出本次任务相关的API描述，再交给LLM处理。这就需要设计一个标准化的、容易扩展、易于插拔的工具/插件架构。即能够灵活快速地扩展Agent的“工具包”，在增加新的工具时，通过简单的配置甚至自动化生成，即可给Agent动态赋予新的工具能力。

5.Web助手

Web助手即一种类似RPA（机器人流程自动化）的AI智能体。其主要能力是自动化网络浏览、操作与探索。可作为个人数字助理，通过简单对话即可让AI在线订票等操作。对于企业来说，可作为企业的数字员工，简化企业日常工作中重复性较高、流程与规则固定、大批量的操作性事务。比如批量订单处理、批量客户联络、批量网站抓取等，以此提高效率，降低错误率。

传统的RPA机器人工作方式即在软件操作层面进行流程化配置，但每个任务都需要根据前端应用界面做精心配置与调试，自适应能力较差。在大模型出现以后，可以利用大模型的理解与分析推理能力，让AI更加智能的规划与分解任务过程，然后借助浏览器完成执行；未来可利用像GPT-4这样的视觉模型，更智能的理解界面元素与功能，实现完全自主的智能操作，具备更强的自适应能力。

6.自定义流程助手

理想中的AIAgent是在丢给他一个工具包与一些知识以后，借助于大模型的理解、推理能力，完全自主进行规划与分解、设计任务步骤，并智能的使用各种工具，检索知识，输出内容，完成任务。但是在企业应用中，由于企业知识、应用、业务需求的千差方别，以及大模型自身的不确定性，如果这么做，那么结果很可能是“开盲盒”一样的不可控。所以要求对AI智能体的执行过程与细节进行更多的控制，来让AI按照人类确认过的工作流程来完成任务。比如HR简历自动化筛选的场景中，需要更加细致的去定义整个自动化工作流程，包括：

主要的工作步骤与目标设定
每个步骤使用的大模型
每个步骤可以使用的工具
可以输入与携带的知识与文档
其他必要的限定与指令

在实际应用中，基于LLM的工作流既可以是对话机器人来触发；也可以是后台触发。其技术实现方式如下：

借助Langchain/Llamalndex这样的LLM开发框架直接定制外
借助类似Flowise或者FastGPT这样的具有LLM流程可视化编排能力的框架或平台，可以更加直观简单地定制任务流程
借助类似SuperAGI这样可快速简单化定制LLM流程的Agent框架来实现

三、AI Agent构建方式

国内外非常多的AI独角兽/大厂均瞄准了“AI Agent”搭建制作平台这一赛道。从产品角度整理一下，目前AI Agent搭建开发平台的2种形式。

1.Prompt+插件

使用prompt定义Agent的人设与行为，再通过插件进行加强。这里的代表便是GPTs。目前绝大多数的Agent开发平台都走的这一形式，如Coze。这一搭建形式的优势是搭建快速，例如很多产品，现在都只需要输入一个大致主题，平台便能自动生成全面且完善的人设行为Prompt。最大的不足是无法满足逻辑复杂且有较高稳定性要求的任务流。

2.workflow工作流

通过流程图的方式，编排Agent的工作流。这一Agent搭建形式其实出现的更早，在AI1.0时代的TOB智能客服产品中，就能看到很多这样的单间形式，通过搭建不同任务的工作流，实现Agent的业务完成。代表产品是Voiceflow。这一搭建方式的优势是能设计实现庞大复杂的工作流程，通过意图跳转、if/else、循环等等逻辑，能搭建出企业内部非常庞大复杂的流程，最大的不做则是流程配置上手较为困难。

两种形式，各有优势，市面上基于第一种形式的产品，例如coze，均也加入了第二种形式作为补充～

四、大模型多智能体框架CAMEL

AI Agents是当下大模型领域备受关注的话题，用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中，Agents之间会进行竞争和协作等多种形式的动态交互，进而产生惊人的群体智能效果。

CAMEL框架设计了灵活的模块化功能，包括不同代理的实现、各种专业领域的提示示例和AI数据探索框架等，因此CAMEL可以作为一个基础的Agents后端、支持AI研究者和开发者更加轻松的开发有关于多智能体系统、合作人工智能、博弈论模拟、社会分析、人工智能伦理等方面的应用。

CAMEL框架具备协作角色扮演能力，CAMEL内置的协作式role-playing框架可以在人类用户不具备专业知识的情况下，通过Agents之间的协作方式完成复杂任务。

CAMEL框架具备具身智能体的能力，AI Agents可以理解为在模拟一些操作，而没有与现实世界交互或使用外部工具执行操作，目前的LLMs已经具备与互联网或其他工具API交互的能力，CAMEL也提供了能够在物理世界中执行各种操作的具身智能体，可以实现浏览互联网、阅读文档、创建图像、音频和视频等内容，甚至可以直接执行代码。

五、代码实操

1.会话智能体

（1）创建任务，指定头脑风暴的代理，获取指定任务

（2）角色扮演会话，来解决问题

2.使用LangChain和OpenAI API构建多模态AI智能体

项目目标：从YouTube下载教程视频，转录音频，并创建AI智能体来询问有关内容的问题

了解使用多模态AI项目的构建块
使用LangChain的一些基本概念
使用Whisper API将音频转录为文本
结合LangChain和Whisper API创建创建任何YouTube视频的提问

数亦有术

关注

13
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【大模型应用】AI Agent企业应用助手总结

理想中的AIAgent是在丢给他一个工具包与一些知识以后，借助于大模型的理解、推理能力，完全自主进行规划与分解、设计任务步骤，并智能的使用各种工具，检索知识，输出内容，完成任务。但是在企业应用中，由于企业知识、应用、业务需求的千差方别，以及大模型自身的不确定性，如果这么做，那么结果很可能是“开盲盒”一样的不可控。所以要求对AI智能体的执行过程与细节进行更多的控制，来让AI按照人类确认过的工作流程来完成任务。主要的工作步骤与目标设定每个步骤使用的大模型每个步骤可以使用的工具。
复制链接

扫一扫