Agent让大模型从“解释问题”到“解决问题”

最新推荐文章于 2024-07-23 16:40:54 发布

远洋之帆

最新推荐文章于 2024-07-23 16:40:54 发布

阅读量579

点赞数 10

分类专栏： AIGC AI应用市场自然语言综合项目文章标签：人工智能

本文链接：https://blog.csdn.net/liangwqi/article/details/140639436

版权

AIGC 同时被 3 个专栏收录

40 篇文章 25 订阅

订阅专栏

AI应用市场

26 篇文章 4 订阅

订阅专栏

自然语言综合项目

16 篇文章 5 订阅

订阅专栏

背景

大语言模型在解决对话类问题有了很大突破，然而在实际世界我们往往希望大模型能把各种言语“指令”、操作流程变成实际的产出。从解释问题到解决问题。
举一个例子来讲：
我们问大模型该怎么画一幅水彩画，大模型吧啦吧啦输出了一堆画水彩的流程。如果你真按着他的流程去作画有可能可以得到一幅不错的画。但是如果我们希望的是马上得到一幅画，让模型直接帮忙生成一幅画那是不是更有实际价值。
再比如：
试想一下，当你躺在家里的床上准备睡觉的时候，突然发现窗帘没有关上，如果这时候跟大模型说“请帮我关闭我家的窗帘”，其实我们并不想听到大模型回复了一大段的“关闭窗帘的步骤”，如果大模型真的像一个人一样能够完成这件事情，那该有多酷！甚至当你说出一些稍微复杂指令，比如“窗帘不用全部关上，给我留一个缝”，如果大模型也能“理解”并且能自动将“留一个缝”这种自然语言转换为控制“窗帘闭合百分比”这样的一个量化参数并且真正将窗帘关闭到合适位置的时候，那么大模型才真正能在各行各业的落地中带来一波大的浪潮。
我们并不需要一个只知道聊天的机器人“玩具”，我们需要的正是这种“有手有脚”的大模型、能做事情的大模型，这应该才是我们真正的所需要的大模型的理想形态。那么Agent正是我们通往这种理想形态的一个很重要的技术手段，肯定不是唯一的，但至少是当下这个时间点非常重要的一种技术手段。
要实现大模型从解释问题到解决问题的突破，有两条Agent实现路径：
1.SOP+BOM，提前对解决问题流程抽取，根据问题调用相应处理问题流程
2.设定奖励规则，用RL算法让Agent自主探索
这篇文章重点介绍SOP+BOM实现的Agent方案。

Agent的分类

1. Agent有多少种类别

Agent AI被分类为以下几种主要类别：

Generalist Agents: 这些是通用的Agent，旨在在各种任务和环境中表现良好。
Embodied Agents: 这些是具有物理或虚拟身体的Agent，可以与环境进行物理交互。
Simulation and Environments Agents: 这些是用于模拟和环境交互的Agent，可以用于训练和测试其他类型的Agent。
Generative Agents: 这些是能够生成新内容（如图像、音频或文本）的Agent。
Knowledge and Logical Inference Agents: 这些是能够进行知识推理和逻辑推理的Agent。
LLMs and VLMs Agent: 这些是使用大型语言模型（LLMs）和视觉语言模型（VLMs）的Agent，可以进行多模态的理解和生成。

2. Agent分类的条件要求

分类主要基于Agent的功能、应用领域和交互方式。例如:

是否需要执行物理动作
是否需要与环境或用户交互
是否专注于特定领域(如游戏、医疗)
是否涉及知识检索和推理
是否需要生成内容

3. 每一类Agent的特点，优点和不足

Generalist Agent Areas

特点：广泛适用于多种任务和环境。
优点：通用性强，适应性高。
不足：可能在特定任务上不如专用智能体高效。

Embodied Agents

特点：在物理或虚拟环境中执行任务。
优点：能够与环境进行复杂交互，适用于机器人和游戏等领域。
不足：需要复杂的感知和行动系统，开发成本高。

Action Agents

特点：执行物理动作。
优点：适用于机器人和游戏中的物理交互任务。
不足：需要高精度的动作控制和环境感知。

Interactive Agents

特点：与用户或其他智能体互动。
优点：增强用户体验，适用于客服和教育等领域。
不足：需要复杂的自然语言处理和情感识别能力。

Simulation and Environments Agents

特点：在模拟环境中操作。
优点：适用于训练和测试，成本低。
不足：可能与真实环境存在差距，影响实际应用效果。

Generative Agents

特点：生成内容或环境。
优点：适用于内容创作和虚拟世界构建。
不足：生成内容的质量和多样性可能受限。

AR/VR/mixed-reality Agents

特点：在增强现实、虚拟现实或混合现实环境中操作。
优点：提供沉浸式体验，适用于娱乐和教育等领域。
不足：需要高性能硬件支持，开发成本高。

Knowledge and Logical Inference Agents

特点：处理知识和逻辑推理任务。
优点：适用于决策支持和知识管理。
不足：需要大量高质量数据和复杂的推理算法。

Knowledge Agent

特点：专注于知识管理和应用。
优点：能够处理和应用大量知识。
不足：知识更新和维护成本高。

Logic Agents

特点：处理逻辑推理任务。
优点：能够进行复杂的逻辑推理。
不足：推理速度可能较慢，处理复杂性高。

Agents for Emotional Reasoning

特点：处理情感推理任务。
优点：能够理解和回应用户情感，增强用户体验。
不足：情感识别和推理的准确性可能受限。

Neuro-Symbolic Agents

特点：结合神经网络和符号推理。
优点：结合了神经网络的学习能力和符号推理的逻辑性。
不足：系统复杂度高，开发难度大。

LLMs and VLMs Agent

特点：基于大规模语言模型和视觉语言模型。
优点：具备强大的语言理解和生成能力，适用于多种任务。
不足：需要大量计算资源，可能存在偏见和幻觉问题。

Agent商业平台

支持能力
支持调用工具数
操作便捷度
持续开发能力
经典案例

Betteryeah

网址：https://www.betteryeah.com/agentstore

斑头雁智能科技，其核心团队源自阿里巴巴钉钉的初创精英，专注于打造零门槛Agent构建平台，旨在迅速激活并释放大模型的强大潜力。该平台内置了包括ChatGLM、阿里通义千问、百度千帆在内的国内外顶尖AI模型，为用户提供了丰富的选择。

基本能力

1.支持流程编排，支持工具接入，Ai辅助工具、流程function call的prompt生成；
2.具备用户自定义知识导入、简单RAG上下文
3.暂时不具备GraphRAG，跨文件、跨项目内容链接准确度需要用户自己解决
4.支持batch处理能力、支持时间序列能力
5.具备流程追溯、流程执行每步记录能力
6.暂时不具备适用Ai开发的CI/CD开发、测试、运营自动迭代持续开发能力

支持工具集

1.支持常规pdf文本类处理工具
2.支持基础数据库、excel表数据类处理工具
3.支持简单语音类处理工具
4.支持简单图生成类、图理解、ocr处理工具
5.支持简单公网信息检索工具
6.暂时不支持数据结果可视化呈现

操作便捷性

1.支持AI自动为流程串接生成稳定function call的prompt
2.常用图、音、信息检索以完成较高质量子链路封装
3.操作流具备每步执行定位、问题追溯能力
4.具备任务批处理能力
5.对工作流做了分类归档，相对容易上手定制自己任务
6.有应用展板方便参考

持续开发能力

1.目前看对于企业级别多工作流协同问题基本没考虑到（如何通过中间过程协同）
2.多条工作流之上的编排能力暂时不具备（多条工作流直接如何架设完成模块级别任务）
3.任务到工作流映射可解释性不太好，大部分企业工作模式是需求、细分、落地代码，这中间有明确映射关系，但是现在如果用工作流来替代，回溯这个过程不容易
4.适用与AI开发模式的CI/CD模式没有，如何做大模型的验证、测试、发布、迭代升级、能力补丁升级
5.对于结果呈现部分考虑不够

COZE

网址：https://www.coze.cn
Coze，作为字节精心打造的AI Bot开发旗舰平台，致力于赋能开发者，以强大而简洁的界面，加速智能聊天机器人的设计与部署流程。在中文大模型智能体生态中，Coze以其先驱地位傲视群雄，无论是率先布局的市场先机，还是其在智能体编排工具的成熟度、插件的广泛性、兼容大模型种类的多样性，乃至发布渠道的全面覆盖，均展现出非凡实力。
扣子应该是目前市面上看到的Agent编排不管是基础能力、应用生态、操作建议性、后续持续开发做的最好的一款产品。

基本能力

支持工具集

操作便捷性

持续开发能力

1.目前看对于企业级别多工作流协同问题基本没考虑到（如何通过中间过程协同）
2.工作流之上的编排能力暂时不具备（多条工作流直接如何架设完成模块级别任务）
3.任务到工作流映射可解释性不太好，大部分企业工作模式是需求、细分、落地代码，这中间有明确映射关系，但是现在如果用工作流来替代，回溯这个过程不容易
4.适用与AI开发模式的CI/CD模式没有，如何做大模型的验证、测试、发布、迭代升级、能力补丁升级
5.对于结果呈现部分考虑不够

钉钉AI助理

网页链接：https://open.dingtalk.com/document/ai-dev/introduction-to-ai-assistant
目前市面上可见的企业应用最好的AI Agent，应该是to B做的最好的最贴近实际需求的Ai Agent。

钉钉AI助理的功能导览图，

智能沟通：包括消息总结、智能问答、快速阅读和工作概览，可以帮助用户更高效地进行沟通和信息处理。
AI助理+文档：包括文档创作、白板协同、数据表格和脑图绘制，可以帮助用户进行内容创作和知识管理。
AI助理+会议：包括文生虚实场景和智能纪要，可以提升会议效率和体验。
AI助理+日程：可以帮助用户新建日程和日程海报，更好地管理时间和安排。
AI助理+待办：可以帮助用户进行任务管理和提醒。
AI助理+填报：可以帮助用户进行数据采集和统计。
AI助理+数据洞察：包括智能问数和数据分析（宜搭），可以帮助用户进行数据分析和决策。
AI助理+人事：包括智能简历和人才库，可以帮助企业进行人才招聘和管理。
AI助理+差旅：可以帮助用户进行差旅预订和管理。
AI助理+营销：可以帮助企业进行智能营销和销售。
创建AI助理：用户可以根据自己的需求创建专属的AI助理。
管理AI助理：用户可以对自己的AI助理进行管理和配置。
开放能力：用户可以将AI助理的能力开放给第三方应用使用。
AI助理市场：用户可以在市场中获取更多第三方的AI助理应用。

总的来说，钉钉AI助理是一个基于人工智能技术的个人助理工具，旨在帮助用户提高工作效率和管理个人事务。通过自然语言处理、机器学习和数据分析等技术，钉钉AI助理可以实现智能问答、文档创作、会议纪要、日程安排、任务管理、数据分析等功能，为用户提供智能化的工作和生活体验。

拥有丰富的企业级别的工作插件，是丰富的企业场景、数据积累和生态应用。AI助理市场连接钉钉积累的SaaS应用、低代码应用生态，并通过开放能力连接企业自建系统、外部第三方平台，低门槛地创造AI助理。

根据需要可以自定义工作流。

百度千帆AgentBuilder

网址：https://agents.baidu.com/
百度AgentBuilder是一款智能体开发工具，旨在降低智能体开发门槛，让每个人、每个组织都能够成为智能体的开发者。AgentBuilder是百度推出的三大AI开发工具之一，另外两个工具分别是AppBuilder和ModelBuilder(小纸条之前的文章给大家介绍过各家产品们的区别)。
产品形态：基于文心大模型的智能体平台，也是平台型。
开发方式：支持开发者根据自身行业领域和应用场景选择不同类型的开发方式，提供低成本的prompt编排方式。
功能特点：提供零代码和低代码两种开发模式，适合不同技术背景的开发者
来看下智能体中心大家都在用什么，热门的主要也还是聚焦提效、娱乐、生活、以及实时热点的高考。

阿里云魔搭

网址：https://modelscope.cn/studios/agent
开发方式多元化：该框架支持创建多样化的多模态AI Agent，涵盖客户服务、个人助理等多个领域，满足不同场景下的智能化需求。用户可以根据具体业务场景，轻松构建出既能处理文本对话，又能理解图像、语音等多类型信息的智能体，实现全方位的用户交互体验。
一键协作，简化流程：在AI项目开发中，模型间的协作至关重要。因此，该框架创新性地引入了一键发送指令调用其他AI模型的功能，大幅简化了模型集成与协作的流程。用户无需深入技术细节，即可轻松实现多模型间的无缝对接，提升整体项目的智能化水平和响应速度。
低/零代码平台，降低门槛：为了进一步降低AI Agent的开发门槛，结合了低/零代码平台的设计理念，让非技术背景的用户也能参与到AI应用的开发中来。通过直观的图形化界面和丰富的预设模板，用户可以快速上手，实现个性化定制的智能体，无需编写复杂的代码。
广泛适用，未来可期：该框架设计之初就充分考虑了未来技术的发展趋势，因此它不仅适用于当前多种业务场景，还具备高度的可扩展性和兼容性。随着开源大模型的不断涌现与更新，我们将持续优化该框架，确保它能够快速适配更多新增的开源大模型，为用户提供更加丰富和强大的AI解决方案。

讯飞的星火友伴

网址：https://xinghuo.xfyun.cn/botcenter/createbot
** 讯飞科技，以其深厚的AI技术底蕴，携手星火V3.0这一强大引擎，精心打造了一个专注于虚拟人格GPTs应用的创新平台。该平台不仅代表了讯飞在人工智能领域的又一里程碑式成果，更是为探索个性化智能交互体验开辟了全新的道路。
智能体中心，是由讯飞官方精心设计的虚拟人格模板**。这些模板各具特色，涵盖了从亲切友善的客服助手到风趣幽默的聊天伙伴，再到专业严谨的顾问导师等多种角色设定。
用户可根据自身需求与偏好，轻松选择一款合适的模板作为起点，也可以通过平台的强大功能进行二次改造与个性化定制。

Agent实践

服务领域Agent设计

注：本例摘自《阿里云服务领域Agent智能体》
除了有上述的行业Agent设计框架作为参考，还必须要结合业务，那么我们就来看一下真正的小二是如何解决复杂类问题的，以下图中的真实工单为例：

第①轮，根据客户问题场景进行反问，获取到需要执行退订所需的基本信息。

图5 阿里云售后工作台中小二解决问题的流程示例
第②轮，根据查询到的实例和订单状态，继续与客户沟通确认，从而一步步解决问题。
根据上图中的情况，这个真实实工单场景的流程分解如下：

客户咨询问题：“企业邮箱退订”
客服小二首先回复：“请提供下需要申请退订的产品订单和退款原因”
客户回复了具体的订单号和原因
这时候，小二开始按照“企业邮箱退订”的标准SOP流程进行处理，先根据用户的订单号查询订单状态，确认是企业邮箱产品，然后根据SOP的接口返回，可以看到该邮箱不支持自助退款，并且也能查这个实例最新的订单是“失效续订”的状态，跟客户进行回复“是否需要退订这个未生效续费订单”
客户回复“是的”，确认是这个最新订单，之后小二按照后续操作需要联系相关专员进行操作…

根据这个真实的人工客服小二解决问题的Case，抽象一下阿里云售后服务解决问题的一个经典步骤基本上是：
**“问题识别” -> “查询SOP工具” -> “反问客户、获取信息” -> “根据信息查询工具” -> “查询到工具执行结果” -> “根据执行结果来回复客户” -> “客户继续沟通” -> … -> “解决问题” **
根据用户的问题，大模型要做的事情可以抽象为两大类：Planing（包括Action、Observation）、Generation（主要是Response）。其中，Planing过程是一个多步工具调用的过程，会进行循环调用工具并观察返回结果，直到完成信息收集或工作操作，期间包括API的正常调用、复杂问题拆解搜索、搜索结果不佳时重新搜索等。
根据阿里云目前解决工单方式的主要的步骤，可以抽象出大模型Agent的主要步骤，流程如下图所示：

阿里云服务领域Agent的整体设计流程

**Agent判断：**根据用户问句判断当前场景是否是诊断类问题，是否需要进入Agent的逻辑；
**任务规划：**任务规划这里还分几个细节步骤，分别是：

**1、API检索：**先将与用户问题Query最相关的API接口进行前置检索和召回；
**2、API选择：**然后用大模型读取当前Query和上下文Context，来判断需要使用哪些接口，以及规划调用顺序；
**3、参数判断：**判断需要调用的API接口所需参数是否已经提供，如果未提供，需要向用户“反问”获取信息；
**4、参数组装：**如果客户提供了完整的参数信息，或者当反问客户之后拿到了缺失的参数信息，就生成调用该API所需的入参结构，如JSON结构；

**动作执行：**使用上一步决策的动作进行执行，比如反问，或者API执行，拿到API的返回结果；
**生成回答：**大模型根据API执行结果，组织成解决方案进行回复；

深度开发Agent模型SFT

上面对服务领域的Agent进行了框架设计，实际工作想要让Agent能力真正的落地，还需要对服务领域大模型进行Agent相关能力的训练和评估。
通义千问官方提供的Agent能力为服务领域大模型的Agent能力提供了很好的基础，但是我们的业务属性比较强，Qwen官方的Agent能力在具体业务上使用的时候，还是有一定的不足，因此，最终还是需要按照业务场景进行深度定制和微调训练，才能真正做出符合我们需求的领域Agent能力。
根据用户Query的分布特点，在阿里云客服场景下，大部分客户的问题中缺失具体信息的较多，很多问题都是“ECS连不上”、“备案进度查询”这类简明的意图名称，因此很难一次性直接提取出必填的参数信息，所以绝大多数的场景都需要参数“反问”的能力，那么涉及到反问澄清，就需要具备多轮的Agent对话能力，也就在客户提供了相应信息的情况下，Agent还能够接得上之前的意图，并且继续完成调用的链路，除此之外，还需要增加不需要调用API的情况，以及无参数提取等情况，让大模型能够知道在什么场景下要调用什么API、调用的动作、参数的提取、API的执行情况等等。整体的训练流程图如下所示：
阿里云售后服务领域Agent的训练、评估和应用能力

小结

大模型要实现从“解释”问题到“解决”问题的跨越，就离不开Agent。目前Agent有两条实现路径：
1.SOP+BOM，提前对解决问题流程抽取，根据问题调用相应处理问题流程
2.设定奖励规则，用RL算法让Agent自主探索
文章主要是介绍了SOP+BOM的agent实现路径。这条实现路径更可控更适合当前企业实际需要。
结合当前市面的几款产品，提出了：基本能力、支持工具集、操作编辑性、持续开发能力，四个维度的差评测评标准；对几款产品做了测评评价。目前看产品都具备基本工作流编排能力、每个流程测试、追溯能力，都支持自动化AI生成工具function call能力提高大模型对工作调取能力。但是目前看几款产品基本都是对单一简单工作流支持较好；但对于企业中应用较多的多流程协同、多条工作流直接如何架设完成模块级别任务、任务到工作流映射可解释性不太好、适用与AI开发模式的CI/CD模式没有、结果呈现部分考虑不够。
最后一部分参考阿里云《阿里云服务领域Agent智能体》给出来Agent从“解释”问题到“解决”问题的实践。给出如何基于实际问题做流程拆取、如何设计chatbot、执行流程、工具集三部分衔接。并给出了对于问题相对定制情况下，如何设计数据集训练大模型能力，适配到Agent需要的执行流程模型能力。

远洋之帆

关注

10
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Agent让大模型从“解释问题”到“解决问题”

大模型要实现从“解释”问题到“解决”问题的跨越，就离不开Agent。目前Agent有两条实现路径：1.SOP+BOM，提前对解决问题流程抽取，根据问题调用相应处理问题流程2.设定奖励规则，用RL算法让Agent自主探索文章主要是介绍了SOP+BOM的agent实现路径。这条实现路径更可控更适合当前企业实际需要。结合当前市面的几款产品，提出了：基本能力、支持工具集、操作编辑性、持续开发能力，四个维度的差评测评标准；对几款产品做了测评评价。目前看产品都具备基本工作流编排能力、每个流程测试、追溯能力，都支
复制链接

扫一扫

专栏目录