Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought

本文是LLM系列文章,针对《Can Small Language Models Help Large Language Models Reason
Better?

小型语言模型能帮助大型语言模型更好地推理吗?LM引导的思维链

摘要

我们介绍了一种新的框架,LM Guided CoT,它利用轻量级(即<1B)语言模型(LM)来指导推理任务中的黑盒大(即>10B)LM。具体来说,轻量级LM首先为每个输入实例生成一个基本原理。然后,冻结的大型LM会被提示根据轻量级LM生成的基本原理预测任务输出。我们的方法是资源高效的,因为它只需要训练轻量级的LM。我们通过1)知识蒸馏和2)从面向理论基础和面向任务的奖励信号中强化学习来优化模型。我们使用多跳提取式问答(QA)基准、HotpotQA和2WikiMultiHopQA来评估我们的方法。实验结果表明,我们的方法在答案预测精度方面优于所有基线。我们还发现,强化学习有助于模型产生更高质量的理由,并提高QA表现。

1 引言

2 相关工作

3 LM引导的思维链

4 实验和结果

5 结论

LM引导CoT是一种新的框架,它使用两个模

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值