Agent让大模型从“解释问题”到“解决问题”

背景

image.png
大语言模型在解决对话类问题有了很大突破,然而在实际世界我们往往希望大模型能把各种言语“指令”、操作流程变成实际的产出。从解释问题到解决问题。
举一个例子来讲:
我们问大模型该怎么画一幅水彩画,大模型吧啦吧啦输出了一堆画水彩的流程。如果你真按着他的流程去作画有可能可以得到一幅不错的画。但是如果我们希望的是马上得到一幅画,让模型直接帮忙生成一幅画那是不是更有实际价值。
再比如:
试想一下,当你躺在家里的床上准备睡觉的时候,突然发现窗帘没有关上,如果这时候跟大模型说“请帮我关闭我家的窗帘”,其实我们并不想听到大模型回复了一大段的“关闭窗帘的步骤”,如果大模型真的像一个人一样能够完成这件事情,那该有多酷!甚至当你说出一些稍微复杂指令,比如“窗帘不用全部关上,给我留一个缝”,如果大模型也能“理解”并且能自动将“留一个缝”这种自然语言转换为控制“窗帘闭合百分比”这样的一个量化参数并且真正将窗帘关闭到合适位置的时候,那么大模型才真正能在各行各业的落地中带来一波大的浪潮。
我们并不需要一个只知道聊天的机器人“玩具”,我们需要的正是这种“有手有脚”的大模型、能做事情的大模型,这应该才是我们真正的所需要的大模型的理想形态。那么Agent正是我们通往这种理想形态的一个很重要的技术手段,肯定不是唯一的,但至少是当下这个时间点非常重要的一种技术手段。
要实现大模型从解释问题到解决问题的突破,有两条Agent实现路径:
1.SOP+BOM,提前对解决问题流程抽取,根据问题调用相应处理问题流程
2.设定奖励规则,用RL算法让Agent自主探索
这篇文章重点介绍SOP+BOM实现的Agent方案。

Agent的分类

1. Agent有多少种类别

Agent AI被分类为以下几种主要类别:

  • Generalist Agents: 这些是通用的Agent,旨在在各种任务和环境中表现良好。
  • Embodied Agents: 这些是具有物理或虚拟身体的Agent,可以与环境进行物理交互。
  • Simulation and Environments Agents: 这些是用于模拟和环境交互的Agent,可以用于训练和测试其他类型的Agent。
  • Generative Agents: 这些是能够生成新内容(如图像、音频或文本)的Agent。
  • Knowledge and Logical Inference Agents: 这些是能够进行知识推理和逻辑推理的Agent。
  • LLMs and VLMs Agent: 这些是使用大型语言模型(LLMs)和视觉语言模型(VLMs)的Agent,可以进行多模态的理解和生成。

2. Agent分类的条件要求

分类主要基于Agent的功能、应用领域和交互方式。例如:

  • 是否需要执行物理动作
  • 是否需要与环境或用户交互
  • 是否专注于特定领域(如游戏、医疗)
  • 是否涉及知识检索和推理
  • 是否需要生成内容

3. 每一类Agent的特点,优点和不足

Generalist Agent Areas
  • 特点:广泛适用于多种任务和环境。
  • 优点:通用性强,适应性高。
  • 不足:可能在特定任务上不如专用智能体高效。
Embodied Agents
  • 特点:在物理或虚拟环境中执行任务。
  • 优点:能够与环境进行复杂交互,适用于机器人和游戏等领域。
  • 不足:需要复杂的感知和行动系统,开发成本高。
Action Agents
  • 特点:执行物理动作。
  • 优点:适用于机器人和游戏中的物理交互任务。
  • 不足:需要高精度的动作控制和环境感知。
Interactive Agents
  • 特点:与用户或其他智能体互动。
  • 优点:增强用户体验,适用于客服和教育等领域。
  • 不足:需要复杂的自然语言处理和情感识别能力。
Simulation and Environments Agents
  • 特点:在模拟环境中操作。
  • 优点:适用于训练和测试,成本低。
  • 不足:可能与真实环境存在差距,影响实际应用效果。
Generative Agents
  • 特点:生成内容或环境。
  • 优点:适用于内容创作和虚拟世界构建。
  • 不足:生成内容的质量和多样性可能受限。
AR/VR/mixed-reality Agents
  • 特点:在增强现实、虚拟现实或混合现实环境中操作。
  • 优点:提供沉浸式体验,适用于娱乐和教育等领域。
  • 不足:需要高性能硬件支持,开发成本高。
Knowledge and Logical Inference Agents
  • 特点:处理知识和逻辑推理任务。
  • 优点:适用于决策支持和知识管理。
  • 不足:需要大量高质量数据和复杂的推理算法。
Knowledge Agent
  • 特点:专注于知识管理和应用。
  • 优点:能够处理和应用大量知识。
  • 不足:知识更新和维护成本高。
Logic Agents
  • 特点:处理逻辑推理任务。
  • 优点:能够进行复杂的逻辑推理。
  • 不足:推理速度可能较慢,处理复杂性高。
Agents for Emotional Reasoning
  • 特点:处理情感推理任务。
  • 优点:能够理解和回应用户情感,增强用户体验。
  • 不足:情感识别和推理的准确性可能受限。
Neuro-Symbolic Agents
  • 特点:结合神经网络和符号推理。
  • 优点:结合了神经网络的学习能力和符号推理的逻辑性。
  • 不足:系统复杂度高,开发难度大。
LLMs and VLMs Agent
  • 特点:基于大规模语言模型和视觉语言模型。
  • 优点:具备强大的语言理解和生成能力,适用于多种任务。
  • 不足:需要大量计算资源,可能存在偏见和幻觉问题。

Agent商业平台

支持能力
支持调用工具数
操作便捷度
持续开发能力
经典案例

Betteryeah

网址:https://www.betteryeah.com/agentstore

斑头雁智能科技,其核心团队源自阿里巴巴钉钉的初创精英,专注于打造零门槛Agent构建平台,旨在迅速激活并释放大模型的强大潜力。该平台内置了包括ChatGLM、阿里通义千问、百度千帆在内的国内外顶尖AI模型,为用户提供了丰富的选择。

基本能力

1.支持流程编排,支持工具接入,Ai辅助工具、流程function call的prompt生成;
2.具备用户自定义知识导入、简单RAG上下文
3.暂时不具备GraphRAG,跨文件、跨项目内容链接准确度需要用户自己解决
4.支持batch处理能力、支持时间序列能力
5.具备流程追溯、流程执行每步记录能力
6.暂时不具备适用Ai开发的CI/CD开发、测试、运营自动迭代持续开发能力
image.png

支持工具集

1.支持常规pdf文本类处理工具
2.支持基础数据库、excel表数据类处理工具
3.支持简单语音类处理工具
4.支持简单图生成类、图理解、ocr处理工具
5.支持简单公网信息检索工具
6.暂时不支持数据结果可视化呈现

操作便捷性

1.支持AI自动为流程串接生成稳定function call的prompt
2.常用图、音、信息检索以完成较高质量子链路封装
3.操作流具备每步执行定位、问题追溯能力
4.具备任务批处理能力
5.对工作流做了分类归档,相对容易上手定制自己任务
6.有应用展板方便参考

持续开发能力

1.目前看对于企业级别多工作流协同问题基本没考虑到(如何通过中间过程协同)
2.多条工作流之上的编排能力暂时不具备(多条工作流直接如何架设完成模块级别任务)
3.任务到工作流映射可解释性不太好,大部分企业工作模式是需求、细分、落地代码,这中间有明确映射关系,但是现在如果用工作流来替代,回溯这个过程不容易
4.适用与AI开发模式的CI/CD模式没有,如何做大模型的验证、测试、发布、迭代升级、能力补丁升级
5.对于结果呈现部分考虑不够

COZE

网址:https://www.coze.cn
Coze,作为字节精心打造的AI Bot开发旗舰平台,致力于赋能开发者,以强大而简洁的界面,加速智能聊天机器人的设计与部署流程。在中文大模型智能体生态中,Coze以其先驱地位傲视群雄,无论是率先布局的市场先机,还是其在智能体编排工具的成熟度、插件的广泛性、兼容大模型种类的多样性,乃至发布渠道的全面覆盖,均展现出非凡实力。
扣子应该是目前市面上看到的Agent编排不管是基础能力、应用生态、操作建议性、后续持续开发做的最好的一款产品。
image.png

基本能力

1.支持流程编排,支持工具接入,Ai辅助工具、流程function call的prompt生成;
2.具备用户自定义知识导入、简单RAG上下文
3.暂时不具备GraphRAG,跨文件、跨项目内容链接准确度需要用户自己解决
4.支持batch处理能力、支持时间序列能力
5.具备流程追溯、流程执行每步记录能力
6.暂时不具备适用Ai开发的CI/CD开发、测试、运营自动迭代持续开发能力
image.png

支持工具集

1.支持常规pdf文本类处理工具
2.支持基础数据库、excel表数据类处理工具
3.支持简单语音类处理工具
4.支持简单图生成类、图理解、ocr处理工具
5.支持简单公网信息检索工具
6.暂时不支持数据结果可视化呈现

操作便捷性

1.支持AI自动为流程串接生成稳定function call的prompt
2.常用图、音、信息检索以完成较高质量子链路封装
3.操作流具备每步执行定位、问题追溯能力
4.具备任务批处理能力
5.对工作流做了分类归档,相对容易上手定制自己任务
6.有应用展板方便参考

持续开发能力

1.目前看对于企业级别多工作流协同问题基本没考虑到(如何通过中间过程协同)
2.工作流之上的编排能力暂时不具备(多条工作流直接如何架设完成模块级别任务)
3.任务到工作流映射可解释性不太好,大部分企业工作模式是需求、细分、落地代码,这中间有明确映射关系,但是现在如果用工作流来替代,回溯这个过程不容易
4.适用与AI开发模式的CI/CD模式没有,如何做大模型的验证、测试、发布、迭代升级、能力补丁升级
5.对于结果呈现部分考虑不够

钉钉AI助理

网页链接:https://open.dingtalk.com/document/ai-dev/introduction-to-ai-assistant
目前市面上可见的企业应用最好的AI Agent,应该是to B做的最好的最贴近实际需求的Ai Agent。
image.png
钉钉AI助理的功能导览图,

  1. 智能沟通:包括消息总结、智能问答、快速阅读和工作概览,可以帮助用户更高效地进行沟通和信息处理。
  2. AI助理+文档:包括文档创作、白板协同、数据表格和脑图绘制,可以帮助用户进行内容创作和知识管理。
  3. AI助理+会议:包括文生虚实场景和智能纪要,可以提升会议效率和体验。
  4. AI助理+日程:可以帮助用户新建日程和日程海报,更好地管理时间和安排。
  5. AI助理+待办:可以帮助用户进行任务管理和提醒。
  6. AI助理+填报:可以帮助用户进行数据采集和统计。
  7. AI助理+数据洞察:包括智能问数和数据分析(宜搭),可以帮助用户进行数据分析和决策。
  8. AI助理+人事:包括智能简历和人才库,可以帮助企业进行人才招聘和管理。
  9. AI助理+差旅:可以帮助用户进行差旅预订和管理。
  10. AI助理+营销:可以帮助企业进行智能营销和销售。
  11. 创建AI助理:用户可以根据自己的需求创建专属的AI助理。
  12. 管理AI助理:用户可以对自己的AI助理进行管理和配置。
  13. 开放能力:用户可以将AI助理的能力开放给第三方应用使用。
  14. AI助理市场:用户可以在市场中获取更多第三方的AI助理应用。

总的来说,钉钉AI助理是一个基于人工智能技术的个人助理工具,旨在帮助用户提高工作效率和管理个人事务。通过自然语言处理、机器学习和数据分析等技术,钉钉AI助理可以实现智能问答、文档创作、会议纪要、日程安排、任务管理、数据分析等功能,为用户提供智能化的工作和生活体验。
image.png
拥有丰富的企业级别的工作插件,是丰富的企业场景、数据积累和生态应用。AI助理市场连接钉钉积累的SaaS应用、低代码应用生态,并通过开放能力连接企业自建系统、外部第三方平台,低门槛地创造AI助理。
image.png
根据需要可以自定义工作流。

百度千帆AgentBuilder

image.png
网址:https://agents.baidu.com/
百度AgentBuilder是一款智能体开发工具,旨在降低智能体开发门槛,让每个人、每个组织都能够成为智能体的开发者。AgentBuilder是百度推出的三大AI开发工具之一,另外两个工具分别是AppBuilder和ModelBuilder(小纸条之前的文章给大家介绍过各家产品们的区别)。
产品形态:基于文心大模型的智能体平台,也是平台型。
开发方式:支持开发者根据自身行业领域和应用场景选择不同类型的开发方式,提供低成本的prompt编排方式。
功能特点:提供零代码和低代码两种开发模式,适合不同技术背景的开发者
来看下智能体中心大家都在用什么,热门的主要也还是聚焦提效、娱乐、生活、以及实时热点的高考。

阿里云魔搭

image.png
网址:https://modelscope.cn/studios/agent
开发方式多元化:该框架支持创建多样化的多模态AI Agent,涵盖客户服务、个人助理等多个领域,满足不同场景下的智能化需求。用户可以根据具体业务场景,轻松构建出既能处理文本对话,又能理解图像、语音等多类型信息的智能体,实现全方位的用户交互体验。
一键协作,简化流程:在AI项目开发中,模型间的协作至关重要。因此,该框架创新性地引入了一键发送指令调用其他AI模型的功能,大幅简化了模型集成与协作的流程。用户无需深入技术细节,即可轻松实现多模型间的无缝对接,提升整体项目的智能化水平和响应速度。
低/零代码平台,降低门槛:为了进一步降低AI Agent的开发门槛,结合了低/零代码平台的设计理念,让非技术背景的用户也能参与到AI应用的开发中来。通过直观的图形化界面和丰富的预设模板,用户可以快速上手,实现个性化定制的智能体,无需编写复杂的代码。
广泛适用,未来可期:该框架设计之初就充分考虑了未来技术的发展趋势,因此它不仅适用于当前多种业务场景,还具备高度的可扩展性和兼容性。随着开源大模型的不断涌现与更新,我们将持续优化该框架,确保它能够快速适配更多新增的开源大模型,为用户提供更加丰富和强大的AI解决方案。

讯飞的星火友伴

image.png
网址:https://xinghuo.xfyun.cn/botcenter/createbot
** 讯飞科技,以其深厚的AI技术底蕴,携手星火V3.0这一强大引擎,精心打造了一个专注于虚拟人格GPTs应用的创新平台。该平台不仅代表了讯飞在人工智能领域的又一里程碑式成果,更是为探索个性化智能交互体验开辟了全新的道路。
智能体中心,是由讯飞官方精心设计的
虚拟人格模板**。这些模板各具特色,涵盖了从亲切友善的客服助手到风趣幽默的聊天伙伴,再到专业严谨的顾问导师等多种角色设定。
用户可根据自身需求与偏好,轻松选择一款合适的模板作为起点,也可以通过平台的强大功能进行二次改造与个性化定制。

Agent实践

服务领域Agent设计

注:本例摘自《阿里云服务领域Agent智能体》
除了有上述的行业Agent设计框架作为参考,还必须要结合业务,那么我们就来看一下真正的小二是如何解决复杂类问题的,以下图中的真实工单为例:

第①轮,根据客户问题场景进行反问,获取到需要执行退订所需的基本信息。

图5 阿里云售后工作台中小二解决问题的流程示例
第②轮,根据查询到的实例和订单状态,继续与客户沟通确认,从而一步步解决问题。
根据上图中的情况,这个真实实工单场景的流程分解如下:

  • 客户咨询问题:“企业邮箱退订”
  • 客服小二首先回复:“请提供下需要申请退订的产品订单和退款原因”
  • 客户回复了具体的订单号和原因
  • 这时候,小二开始按照“企业邮箱退订”的标准SOP流程进行处理,先根据用户的订单号查询订单状态,确认是企业邮箱产品,然后根据SOP的接口返回,可以看到该邮箱不支持自助退款,并且也能查这个实例最新的订单是“失效续订”的状态,跟客户进行回复“是否需要退订这个未生效续费订单”
  • 客户回复“是的”,确认是这个最新订单,之后小二按照后续操作需要联系相关专员进行操作…

根据这个真实的人工客服小二解决问题的Case,抽象一下阿里云售后服务解决问题的一个经典步骤基本上是:
**“问题识别” -> “查询SOP工具” -> “反问客户、获取信息” -> “根据信息查询工具” -> “查询到工具执行结果” -> “根据执行结果来回复客户” -> “客户继续沟通” -> … -> “解决问题” **
根据用户的问题,大模型要做的事情可以抽象为两大类:Planing(包括Action、Observation)、Generation(主要是Response)。其中,Planing过程是一个多步工具调用的过程,会进行循环调用工具并观察返回结果,直到完成信息收集或工作操作,期间包括API的正常调用、复杂问题拆解搜索、搜索结果不佳时重新搜索等。
根据阿里云目前解决工单方式的主要的步骤,可以抽象出大模型Agent的
主要步骤
,流程如下图所示:

阿里云服务领域Agent的整体设计流程

  • **Agent判断:**根据用户问句判断当前场景是否是诊断类问题,是否需要进入Agent的逻辑;
  • **任务规划:**任务规划这里还分几个细节步骤,分别是:

**1、API检索:**先将与用户问题Query最相关的API接口进行前置检索和召回;
**2、API选择:**然后用大模型读取当前Query和上下文Context,来判断需要使用哪些接口,以及规划调用顺序;
**3、参数判断:**判断需要调用的API接口所需参数是否已经提供,如果未提供,需要向用户“反问”获取信息;
**4、参数组装:**如果客户提供了完整的参数信息,或者当反问客户之后拿到了缺失的参数信息,就生成调用该API所需的入参结构,如JSON结构;

  • **动作执行:**使用上一步决策的动作进行执行,比如反问,或者API执行,拿到API的返回结果;
  • **生成回答:**大模型根据API执行结果,组织成解决方案进行回复;

深度开发Agent模型SFT

上面对服务领域的Agent进行了框架设计,实际工作想要让Agent能力真正的落地,还需要对服务领域大模型进行Agent相关能力的训练和评估。
通义千问官方提供的Agent能力为服务领域大模型的Agent能力提供了很好的基础,但是我们的业务属性比较强,Qwen官方的Agent能力在具体业务上使用的时候,还是有一定的不足,因此,最终还是需要按照业务场景进行深度定制和微调训练,才能真正做出符合我们需求的领域Agent能力。
根据用户Query的分布特点,在阿里云客服场景下,大部分客户的问题中缺失具体信息的较多,很多问题都是“ECS连不上”、“备案进度查询”这类简明的意图名称,因此很难一次性直接提取出必填的参数信息,所以绝大多数的场景都需要参数“反问”的能力,那么涉及到反问澄清,就需要具备多轮的Agent对话能力,也就在客户提供了相应信息的情况下,Agent还能够接得上之前的意图,并且继续完成调用的链路,除此之外,还需要增加不需要调用API的情况,以及无参数提取等情况,让大模型能够知道在什么场景下要调用什么API、调用的动作、参数的提取、API的执行情况等等。整体的训练流程图如下所示:
阿里云售后服务领域Agent的训练、评估和应用能力

小结

大模型要实现从“解释”问题到“解决”问题的跨越,就离不开Agent。目前Agent有两条实现路径:
1.SOP+BOM,提前对解决问题流程抽取,根据问题调用相应处理问题流程
2.设定奖励规则,用RL算法让Agent自主探索
文章主要是介绍了SOP+BOM的agent实现路径。这条实现路径更可控更适合当前企业实际需要。
结合当前市面的几款产品,提出了:基本能力、支持工具集、操作编辑性、持续开发能力,四个维度的差评测评标准;对几款产品做了测评评价。目前看产品都具备基本工作流编排能力、每个流程测试、追溯能力,都支持自动化AI生成工具function call能力提高大模型对工作调取能力。但是目前看几款产品基本都是对单一简单工作流支持较好;但对于企业中应用较多的多流程协同、多条工作流直接如何架设完成模块级别任务、任务到工作流映射可解释性不太好、适用与AI开发模式的CI/CD模式没有、结果呈现部分考虑不够。
最后一部分参考阿里云《阿里云服务领域Agent智能体》给出来Agent从“解释”问题到“解决”问题的实践。给出如何基于实际问题做流程拆取、如何设计chatbot、执行流程、工具集三部分衔接。并给出了对于问题相对定制情况下,如何设计数据集训练大模型能力,适配到Agent需要的执行流程模型能力。

  • 10
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值