论文解读分享

A Step Closer to Comprehensive Answers- Constrained Multi-Stage Question Decomposition with Large Language Models

1. 研究问题:
在这里插入图片描述
2. 研究方法:
约束问题分解策略,将用户问题不断地拆解与分别回答。
整体思路如下:第一步是构建高质量的可靠问答库,以该库数据为基础,分别进行了两种数据标注,以完成第二步训练任务,达到训练目标,首先进行答案汇总的数据标注,目的是让模型学会整合多类型答案,其次是问题解答轨迹标注,目的是让模型学习到能够基于当前的信息判断该任务是否应该终止的能力,然后以LLaMa2-13b模型为基础完成训练阶段。第三步是预测推理阶段,该阶段涉及三种外部工具的调用[questionretriver] [answerretriver] [finish]。

第一阶段:

数据:
KwaiTalk应用程序中收集了单轮对话数据,依据问题频率选5万个作为基准问题(用户真实问题 + LLM生成回答)
数据如图:
在这里插入图片描述
该数据经过语法纠错 和 意图识别模型对数据噪声进行处理,最终形成Reliable QA Base,该数据库作用在于LLM生成的数据答案与数据库数据发生冲突的时候,以数据库为准。
Reliable QA Base数据如下:
在这里插入图片描述

第二阶段:

标注一:答案整合

**针对问题:**大型语言模型的预训练数据包含噪声,相同问题的输出结果可能会有所不同

处理:
客观事实性的问题:通过多次生成投票的方法确定答案
主观意见类问题:设计了一个答案汇总模型来整合不同的观点(手动标注5000个答案汇总示例并在LLaMA2-13b上微调)

**目标:**总结出简洁清晰涵盖重点的最终答案。

训练方式:模仿学习,多轮对话。
在这里插入图片描述
标注二:问题解答轨迹标注

工具:
chatgpt 和 gpt4 完成数据标注

过程:
将复杂问题分解为简单问题,通过检索答案逐个击破,当检索不到答案时意味着该子问题与原问题不符合,返回上一步重新选择子问题检索答案。

目标:
训练模型调用外部工具以及学习何时调用停止

训练方式:
模仿学习,多轮对话。

在这里插入图片描述

第三阶段

推理阶段

以上述问题为基础““《坚如磐石》中饰演黎志田的演员在《三体》中饰演什么角色?
””检索失败示例:
在这里插入图片描述
检索成功示例:

在这里插入图片描述
预测阶段涉及三种工具调用,其中“##Function”字段,用于选择工具调用

[questionretriver]:给定一个查询问题,从可信问题数据库中返回与该问题相关的前k个问题。
[answerretriver]:用于检索问题的答案
[Finish]:返回值包括成功或失败。如果成功,终止程序;如果失败,则回溯上一步检索另一个候选问题的答案。

在推理过程中,如果模型调用“Finish = success”,则程序终止;如果参数为“Finish = failed”,程序将回溯到上一步 将对话历史记录的最后一步替换为:“调用xx查询xx没有有效信息”。当模型返回成功,或者检索超出了最大步长限制,模型都将终止运行。

3. 实验
(1)ChitChatQA数据集

训练数据:200(在LLaMA2-13b上进行了多回合对话格式的监督微调)
测试数据:100个实例
在这里插入图片描述
采用D&Q方法,基本模型的响应能力显著增强。即使在对KwaiDialog进行了复杂的微调和强化学习之后,仍然在37%的测试用例中取得了胜利(73%没有失败)。与ChatGPT相比,在62%的情况下没有失败。
(2)HotPotQA数据集
训练数据:200(在LLaMA2-13b上进行了多回合对话格式的监督微调)
预测阶段调用MediaWiki* API实现工具运用:
[artieretriever]:查询维基百科中的条目
[PageRetriever]:检索条目对应的页面
[Finish]:任务终止
在这里插入图片描述
CoT:赋予语言模型生成类似思维链的能力,即一个连贯的中间推理步骤序列,找到问题的答案。
ReAct:支持迭代地利用搜索和查找工具为LLM提供外部信息
Self-Ask:要求模型自问,并使用搜索引擎的答案来增强模型
IRCoT:通过思想链分解问题,使用检索器检索结果,然后将问题和引用上下文连接到更健壮的语言模型code-davinci-002模型(GPT-3家族系列)
较小的模型,通过监督微调来学习工具调用,可以获得与较大模型相当的性能。
(3)检索召回能力
在这里插入图片描述
将检索器返回的最大相关条目数设置为10,每个条目生成5个响应,因此,模型在生成响应时最多可以返回50个条目。通过检索检索50个条目来计算召回率,与基线相比结果从52.3%提高到68.8%。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值