【大模型应用】AI Agent企业应用助手总结

一、AI Agent概念介绍

AI Agent即系统型超级应用,智能代理能够通过零样本或少样本的提示,或者通过人类的反馈来学习如何选择以及调用工具。

感知:Agent从环境中收集信息并从中提取相关知识的能力。

规划:Agent为了某一目标而做出的决策过程。

行动:基于环境和规划做出的动作。

赛道类型:元宇宙型Agent,与现实场景结合,比如招聘、营销、空调管理、运维状态监控、具身机器人(如机械臂、自动驾驶等)。

质量优势:多个职能代理面对同一个问题时可能会产生不同的观点,每个智能代理通过彼此之间的反馈与自身知识的结合,不断更新自己的答案,能够有效减少幻觉或虚假信息的产生,从而提高回复的可靠性与忠实性。

数量优势:基于分工原则,每个智能代理专门从事特定的工作,通过结合多个职能代理的技能优势和领域知识,能够有效提高系统的效率和通用性。

AIAgent是一个以任务驱动的具备自主能力的智能体,不仅需要大模型这个核心“大脑”,也需要任务规划、记忆与外部工具使用等能力。

二、AIAgent类型

对于AIAgent智能体在企业应用中落地,分为以下几类:创作与生成类助手、企业知识助手、数据分析助手、应用/工具助手、Web操作助手、自定义流程助手。

1.创作与生成类助手

以内容创作生成为主要能力的AI Agent从技术上分为两种:

(1)单Agent的内容生成

简单地将大模型的生成能力通过API集成到其他应用与业务流程中,替代或简化原来由人工完成的部分工作。具体应用场景如下:

  • 在线培训管理系统中,利用AI自动根据课件创建考题/考卷;
  • 在数字营销流程中,利用AI生成精确营销话术甚至撰写营销方案;
  • 在市场分析场景中,AIAgent基于互联网搜索或开放数据生成市场分析报告;
  • 在电子商务企业借助AI自动批量生成商品摘要;
  • 媒体行业通过AI生成新闻摘要;
  • 学术平台借助AI生成论文摘要

以上类型的AI助手简单的借助Prompt工程即可实现(与C端个人助手并无本质区别)

(2)基于多Agent协作(可能还有人类)的内容生成

典型的是虚拟机器人软件公司,由AIAgent担任多个软件开发岗位,通过相互协作完成某个软件开发任务。 这种多Agent协作型的助手可以借助Multi-Agents框架来简化开发实现。比如MetaGPT,可以根据自然语言描述的开发任务,组建Agent团队 (PM、架构师、程序员、QA等),遵循SOP并最终输出完整软件开发的 成果(文档、代码、API说明等)。

2.企业知识助手

企业知识助手,即通过“外挂”私有知识库来扩充大模型的知识储备,以提供基于自然语言的、对话式的企业私有知识访问(对应到AIAgent的基本能力之一:持久化记忆)。用以解决通用模型在面向企业应用时领域知识不足导致的幻觉问题。

(1)技术实现原理

企业知识助手通常借助于大模型的RAG(检索增强生成)方案来实现,其本质上也是一种提示工程:借助于在大模型输入时携带相关的私有知识上下文,让大模型理解、总结、整理并回答用户问题。只是这里的私有知识上下文需要借助嵌入模型(EmbrddingModel)、向量数据库。

(2)技术实现方式

基于RAG方案的AI助手可以通过LangChain或者Llamalndex大模型主流应用开发基础框架。这两个基础框架对大量的模型、文档加载器、向量数据库、嵌入模型等做了抽象封装,并对RAG应用过程中的知识检索、Prompt组装等过程做了简化,可以大大简化开发过程。

另一类技术实现方式是选择具有开箱即用能力的RAG应用构建平台。相对基础开发框架来说,提供了更完善的RAG应用构建工具,比如私有知识库的管理维护、测试、对话流程编排、提示词自定义等能力。这里推荐两个项目,一个是基于Langchain构建的Langcahin-Chatchat;另一个是 FastGPT,后者有用于商业运营的SaaS应用,可以自行体验。

3.数据分析助手

数据分析与商业智能(BI)在中大型企业的日常运营中的重要性母庸置疑。传统BI工具使用门槛高、过度依赖技术部门、结果产出周期长的问题可以借助大模型的能力得以缓解。

基于大模型的数据分析助手(DataAgent)支持通过自然语言获取数据、分析数据与展示数据。数据源形式多样化,支持本地Excel数据、关系型数据库、非结构化数据。技术实现途径分为:自然语言转API、自然语言转SQL、代码解释器 (转代码)。

推荐除Langchain之外构建数据分析助手的工具/项目:

  • DB-GPT:一个国内团队以重新定义数据交互为使命的开源项目,包含完整的前后台项目实现,支持多场景数据分析交互。涵盖数据库分析、Excel分析、仪表盘分析等。该开源项目支持后端大模型可伸缩管理架构,同时专注于微调Text2SQL模型与评估。
  • OpenAgents:一个来自香港团队的开源项目,DataAgent是其中一个重要的Agent实现。该项目支持对本地结构化数据文档的数据分析,其特点是提供了基于SQL、基于代码解释器两种数据分析方法供选择。
  • Openlnterpreter:当前最强大的开源代码解释器,完美地复刻了 OpenAl的代码解释器实现,但是可以在本地部署与使用,利用它来实现本地的数据分析与可视化是一个不错的选择。

4.应用工具助手

企业应用中的AI助手需要与现有应用(CRM、OA系统)做集成与交互,以完成用户特定任务或者驱动业务流程。比如:你可以让AI调用办公系统接口,帮你在协同办公系统中提交付款申请; 你可以通过调用第三方平台公开接口,来获得最新某上市公司的财务报告。这些是AIAgent另一项重要能力:工具使用。

AI应用工具助手可以把自然语言转换成企业应用或者互联网开放API的Agent形式。当然,在复杂任务场景下的这种调用往往不是单一的。这就要求大模型有强大的对自然语言转API的能力,在实际使用中,其主要体现以下两个方面:能否根据上下文理解,精确匹配到需要使用的API(一个或者多个);能否准确地提取或生成每个AP的调用参数。

在构建企业基于大模型的应用助手时,需求注意API过多这一工程问题。过多的API描述可能会导致上下文溢出,同时大量API相互干扰,会提高大模型推理时的错误率。可考虑的优化方案是借助向量库语义搜索,每次只检索出本次任务相关的API描述,再交给LLM处理。 这就需要设计一个标准化的、容易扩展、易于插拔的工具/插件架构。即能够灵活快速地扩展Agent的“工具包”,在增加新的工具时,通过简单的配置甚至自动化生成,即可给Agent动态赋予新的工具能力。

5.Web助手

Web助手即一种类似RPA(机器人流程自动化)的AI智能体。其主要能力是自动化网络浏览、操作与探索。 可作为个人数字助理,通过简单对话即可让AI在线订票等操作。对于企业来说,可作为企业的数字员工,简化企业日常工作中重复性较高、流程与规则固定、大批量的操作性事务。比如批量订单处理、批量客户联络、批量网站抓取等,以此提高效率,降低错误率。

传统的RPA机器人工作方式即在软件操作层面进行流程化配置,但每个任务都需要根据前端应用界面做精心配置与调试,自适应能力较差。 在大模型出现以后,可以利用大模型的理解与分析推理能力,让AI更加智能的规划与分解任务过程,然后借助浏览器完成执行;未来可利用像GPT-4这样的视觉模型,更智能的理解界面元素与功能,实现完全自主的智能操作,具备更强的自适应能力。

6.自定义流程助手

理想中的AIAgent是在丢给他一个工具包与一些知识以后,借助于大模型的理解、推理能力,完全自主进行规划与分解、设计任务步骤,并智能的使用各种工具,检索知识,输出内容,完成任务。但是在企业应用中, 由于企业知识、应用、业务需求的千差方别,以及大模型自身的不确定性, 如果这么做,那么结果很可能是“开盲盒”一样的不可控。所以要求对AI智能体的执行过程与细节进行更多的控制,来让AI按照人类确认过的工作流程来完成任务。 比如HR简历自动化筛选的场景中,需要更加细致的去定义整个自动化工作流程,包括:

  • 主要的工作步骤与目标设定
  • 每个步骤使用的大模型
  • 每个步骤可以使用的工具
  • 可以输入与携带的知识与文档
  • 其他必要的限定与指令

在实际应用中,基于LLM的工作流既可以是对话机器人来触发;也可以是后台触发。 其技术实现方式如下:

  • 借助Langchain/Llamalndex这样的LLM开发框架直接定制外
  • 借助类似Flowise或者FastGPT这样的具有LLM流程可视化编排能力的框架或平台,可以更加直观简单地定制任务流程
  • 借助类似SuperAGI这样可快速简单化定制LLM流程的Agent框架来实现

三、AI Agent构建方式

国内外非常多的AI独角兽/大厂均瞄准了“AI Agent”搭建制作平台这一赛道。从产品角度整理一下,目前AI Agent搭建开发平台的2种形式。

1.Prompt+插件

使用prompt定义Agent的人设与行为,再通过插件进行加强。这里的代表便是GPTs。目前绝大多数的Agent开发平台都走的这一形式,如Coze。这一搭建形式的优势是搭建快速,例如很多产品,现在都只需要输入一个大致主题,平台便能自动生成全面且完善的人设行为Prompt。最大的不足是无法满足逻辑复杂且有较高稳定性要求的任务流。

2.workflow工作流

通过流程图的方式,编排Agent的工作流。这一Agent搭建形式其实出现的更早,在AI1.0时代的TOB智能客服产品中,就能看到很多这样的单间形式,通过搭建不同任务的工作流,实现Agent的业务完成。代表产品是Voiceflow。这一搭建方式的优势是能设计实现庞大复杂的工作流程,通过意图跳转、if/else、循环等等逻辑,能搭建出企业内部非常庞大复杂的流程,最大的不做则是流程配置上手较为困难。

两种形式,各有优势,市面上基于第一种形式的产品,例如coze,均也加入了第二种形式作为补充~

四、大模型多智能体框架CAMEL

AI Agents是当下大模型领域备受关注的话题,用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中,Agents之间会进行竞争和协作等多种形式的动态交互,进而产生惊人的群体智能效果。

CAMEL框架设计了灵活的模块化功能,包括不同代理的实现、各种专业领域的提示示例和AI数据探索框架等,因此CAMEL可以作为一个基础的Agents后端、支持AI研究者和开发者更加轻松的开发有关于多智能体系统、合作人工智能、博弈论模拟、社会分析、人工智能伦理等方面的应用。

CAMEL框架具备协作角色扮演能力,CAMEL内置的协作式role-playing框架可以在人类用户不具备专业知识的情况下,通过Agents之间的协作方式完成复杂任务。

CAMEL框架具备具身智能体的能力,AI Agents可以理解为在模拟一些操作,而没有与现实世界交互或使用外部工具执行操作,目前的LLMs已经具备与互联网或其他工具API交互的能力,CAMEL也提供了能够在物理世界中执行各种操作的具身智能体,可以实现浏览互联网、阅读文档、创建图像、音频和视频等内容,甚至可以直接执行代码。

五、代码实操

1.会话智能体

(1)创建任务,指定头脑风暴的代理,获取指定任务

(2)角色扮演会话,来解决问题

2.使用LangChain和OpenAI API构建多模态AI智能体

项目目标:从YouTube下载教程视频,转录音频,并创建AI智能体来询问有关内容的问题

  • 了解使用多模态AI项目的构建块
  • 使用LangChain的一些基本概念
  • 使用Whisper API将音频转录为文本
  • 结合LangChain和Whisper API创建创建任何YouTube视频的提问
  • 13
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值