KwaiAgents论文笔记

摘要

人比较擅长批判性思维,计划,和反思。作者想要agent也会这一套然后能够实现一个广义的信息搜索(理解用户的查询,行为准则,引用外部文档)。

介绍

贡献:

  1. 提出了KAgent-sys,将plan tool reflexion profile等集成在一起

  2. 引入了一套kagentlm框架来 微调优化agent,探索一般的llm如何用于信息搜索

  3. 引入了一套评估基准:KagentBench

  4. 能够解决传统搜索引擎面对长尾或者趋势问题上所存在的局限性

系统组成

Memory

知识Memory:外部资源(主要来自web搜索的结果)

会话Meomory:历史对话

任务Memory: 执行了什么任务,获得了什么结果

每一个memory的长度都是固定的,会使用不同的检索机制(embedding, es)从各个memory中提取出相关片段。最后组合在一起。每个memory还分为正例和负例。

对于Knowledge memory会增加召回结果的数量.

Conversation memory 只考虑和query相关的上下文的历史对话

Task memory 只取最近的task相关的信息

工具库

搜索
hybrid_search

执行两个任务:

  1. 使用搜索引擎api来获取相关的网页,每个网页都带有标题,URL和简要摘要

  2. 通过主实体的链接来识别主实体,获取wiki的描述,并搜集wiki中的简洁的描述,aspect以及相关的视频

时间意识

发现将时间戳合并到提示词中对于时间感知的问题回答仍然不是最优的,还是有过时信息的传播。

所以引入了几个时间感知工具: 1. 日历(处理日期范围,提供公历和阳历的详细信息) 2. 节假日,给定一个日期范围,返回值得关注的节日。 3. time_delta, 计算两个时间错之间的duration 4. 天气,需要一个位置和日期范围来提供天气细节。

其他

还集成了一些高质量的开源工具,来自其他的ReAct, autogpt,toolllama, modekscope Agent框架。

Agent Tuning

模板制作

Re-Act, Auto-GPT, ToolLlama, ModelScope-agent这些agent框架共有结构

  1. Profile, 详细说明LLM的角色

  2. instruction,包含约束和agent动作序列,例如:迭代不超过5次

  3. tools,概述使用工具的格式,如:包含函数名,描述,参数细节的json格式

  4. memory, 对外部知识,过去任务和对话历史的整合

  5. goal, 用户查询和需求的合并

  6. format,说明agent该如何制作响应和管理迭代,例如:返回一个带有任务名称,工具名称,参数的json对象

作者从各种来源(web, sharegpt)搜集了各种query,然后对query进行聚类,最后借助gpt4来生成各种类型query的模板。(如果做比较开放的系统,这种query的制作方式可以学习一下)。 除此之外,还用了其他agent框架的模板。

模板验证

使用gpt对结果进行评分,t表示生成的模板,rc表示候选结果,k表示共有k-1个开源模板(来源于一些开源框架ReACT,autogpt,modescope, toolllama)和一个Gpt生成的模板, sigmoid是一个gpt负责打分的函数

数据集

训练数据集:

聚合和生成其他框架(auto-gpt等)中的工具和查询来编译的,生成了大量的模板,然后按照上述的阈值进行一个过滤。

除了这些,为了不丢失掉大模型的通用能力,还整理了来自不同领域的43099个查询,如开放域问答、聊天、角色扮演、数学等。

bench数据集:

bench的严格按照查询 、工具、 模板和内存元素来制作,参考上方的hybrid_search。(具体我也没怎么看懂)。

这块做了不少人工标注细化,确保高质量的基准

评估

 

 

案例

当查询安东内拉和梅西之间的年龄差异时,会出现两个问题:“梅西和他的妻子”的趋势会使搜索结果偏向于新闻文章,这些新闻文章会用不相关的内容(如关系时间表)吸引用户参与

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Saber_Alpha

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值