【大模型系列】论文KwaiAgents: Generalized Information-seeking Agent System with Large Language Models

KwaiAgents: Generalized Information-seeking Agent System with Large Language Models

基本信息

一句话介绍:基于LLM的广义信息搜索代理系统KwaiAgents

作者单位:快手,哈尔滨工业大学

研究动机

  1. 在好奇心的驱使下,人类不断寻求探索和了解周围的世界,从而发明了各种工具来满足这种好奇心。尽管大脑没有处理和记忆大量信息的能力,但人类擅长批判性思维,计划,反思以及利用现有工具与世界互动和解释世界,使他们能够有效地找到答案。大模型具有这种类似的能力。
  2. 开源的小型模型,如Llama(7B或13B),在特定的代理系统中,通过有针对性的prompts进行微调。但是如果更改prompts,这些模型的性能会下降。因此,尚不确定这些较小的开源模型是否获得了一般化代理功能还是只是过度拟合prompts.

研究问题

  1. 理解用户的查询,行为准则和引用外部文档
  2. 从其内部存储器中更新和检索信息,使用具有时间意识的搜索-浏览工具包计划和执行操作,并提供全面的响应
  3. meta-agent tuning(MAT)框架【旨在确保即使是开源的7B或13B模型在许多代理系统中也能表现良好】
  4. 从网络搜索中检索到的信息可能会被潮流所扭曲,或者是误导性的和过时的。LLM必须考虑和协调来自多个来源的信息。
  5. 许多代理系统和基准测试的复杂性【通常需要api密钥或沙盒缓解】使用直接的提示-响应-输出机制评估LLM变得具有挑战性

方法设计要点

  1. 三个主要组件:KAgentSys,一个集成了内存库,工具库,任务规划器和总结模块的自主代理循环;KAgentLMs,这是一套不断微调以增强代理能力的开源大模型;KAgentBench,一个评估LLM在响应不同能力的不同代理系统提示时的性能的基准
  2. KAgentSys

设计了一个规划-总结过程,其中规划组件促进了agents的思考,而总结部分是为会话中的人类互动量身定制的。还提出了一种创新的混合搜索-浏览工具包,从搜索结果,网页等各种方面和视频中获取知识。这个混合搜索包,连同一个时间感知工具包,有效地处理互联网上的长尾,欺骗性和过时的信息。

LLMS

理解用户的需求,包括考虑与当前对话回合相关的外部知识(从数据库中检索),以及引用以前的对话消息和过去完成的任务。然后LLM应该生成计划,适当的工具命令,或者在完成计划过程后得出结论。

为了适应LLM的不同需求,引入了一个简单的调用API,接受提示作为输入并返回响应。

memory bank

用途:缓存用户的上下文信息。该信息分为三个不同的组件:

知识记忆,捕获并检索用户希望集成到会话上下文的外部资源

会话内存:会话中每个回合的查询-响应对

任务内存:记录了KAgentSys的决策过程

对于每种内存类型,文本被划分为具有固定最大长度的段。然后将每个段转换为矢量表示,用于基于矢量的搜索,或者使用倒排列表对关键字搜索进行索引。这最终形成了一个混合检索系统,给定一个简洁的查询,使用不同的检索机制从各种内存类型中提取相关的文本段。然后将这些片段聚合并格式化的,上下文丰富的文本,以便在后续提示中使用。

Tool Library

两组不同的预定义工具:一组用于事实性,一组用于时间感知

典型的策略是通过指示LLM生成查询来利用搜索引擎进行事实检索,然后LLM决定是否从搜索结果中访问特定的URL,还是根据检索到的信息响应查询。

混合搜索【将传统的web搜索与Kuaipedia中的实体搜索相结合】:hybrid_search函数接受了一个参数query,并同时执行两个任务:(1)它使用搜索引擎API来获取相关的网页,每个网页都带有标题,URL和简要摘要。(2)采用主实体链接来识别主实体,并收集简明的Wikipedia描述,aspect tree和Kuaipedia中最相关的视频。每个组件都包含相应的URL

当代理选择浏览时,它选择以下操作之一:(1)browse_website深入到一个网页,并对其进行总结或得出与输入查询相关的答案。(2) browse_wiki探索维基百科页面,并对其进行总结或提取与查询相关的答案。(3) browse_aspect检查实体的各个方面并调查相关视频。(4) browse_video对单个帧的OCR和视频的ASR进行解析,生成基于文本的摘要。

仅仅将时间戳合并到提示中,对于有时间意识的问答仍然不是之最佳选择,这会导致过时信息的传播。因此引入了几个时间感知工具,(1)日历(2)节假日(3)time_delta (4)天气

用户定义的自定义工具也可以无缝集成

Agent Loop

用户提交查询(必需的)以及可选输入,例如外部知识来源(链接或文件)和指导代理行为的特定指令或配置文件。然后循环通过以下过程进行:

内存更新:更新用户之前的交互记录,包括之前的对话和执行的任务。如果用户提供了新的链接或文件,外部知识库也会相应的更新。

记忆检索:从外部知识来源,过去对话,和完成的任务被检索出来

任务规划:根据prompt使大模型生成一个task_name表示后续的计划,详细说明要使用哪些工具以及相关的参数。

工具执行:如果上一步生成一个名叫task_complete的工具,循环停止并让大模型生成一个结论。否则,执行生成的那些命令,命令的结构加入到task memory中

Concluding:生成最后的对用户query的响应

3,KAgentLMs

目的是为了探索小型的,开源的模型是否能够掌握各种代理系统中的规划,反思,工具使用等技能。引入MAT框架(meta-agent tuning)来为智能体规划和推理提示创建一个高级结构。

提示分为六个关键组件:(1)profile(例如you are a helpful AI Planner) (2)instruction(例如 iterate no more than five times) (3)工具规范(例如 a json schema) (4)memory (5)goal (6)输出格式

生成全面的指导提示模板(meta-Agent利用GPT-4),然后将其合并到代理循环中,以便于与promising open-sourced templates作比较。效率较低的提示模板通过评分机制进行过滤

。在代理循环过程中,利用GPT-4从批准的模板中生成对各种查询的响应,形成代理指令调优数据集(Dagent),这个数据集可以用来训练foundational大模型,也可以和其他数据集组合一起来训练大模型

4,KAgentBench

专为跨不同模型的不同agent能力评估而设计。在 KAgentBench 中,会对不同种类的能力构造输入,每个 query 配备多个模板和多个人工编辑的真实回答,旨在综合评测准确性和泛化性。

实验结论与发现

  1. 在所有方面,GPT-3.5都超越了所有经过实验的开源模型。
  2. 经过meta-agent tuning后,Qwen-7b和百川2- 13b的性能分别有15.84和25.95的显著提高,超过GPT-3.5的性能。由于无法为每个模板生成正确的格式以及处理中文上下文的能力有限,Llama2、ToolLlama和AgentLM在规划、工具使用和反思方面的结果都很差。与工具使用相比,ToolLlama在计划方面的表现更差。
  3. 人类评估:只评估了两个最流行的开源代理系统,ReAct和AutoGPT,与KAgentSys进行比较。代理系统比直接查询llm产生更好的结果。Qwen-7B和百川2- 13b在没有代理的情况下表现良好,可能是由于在预训练或监督微调阶段整合了中国事实数据。AutoGPT优于ReAct,因为提示模板更复杂,JSON输出格式更稳定。无论使用哪个后端LLM,KAgentSys都能达到最佳效果。
  4. 在meta-agent tunning之后,开源模型显示出显著的改进
  5. Meta-agent调优后的模型在看不见的模板上是鲁棒的
  6. Case study:增强的reflection能力和有效停止冗余过程的能力。
  • 19
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值