本文是LLM系列文章,针对《Can Small Language Models Help Large Language Models Reason
Better?
摘要
我们介绍了一种新的框架,LM Guided CoT,它利用轻量级(即<1B)语言模型(LM)来指导推理任务中的黑盒大(即>10B)LM。具体来说,轻量级LM首先为每个输入实例生成一个基本原理。然后,冻结的大型LM会被提示根据轻量级LM生成的基本原理预测任务输出。我们的方法是资源高效的,因为它只需要训练轻量级的LM。我们通过1)知识蒸馏和2)从面向理论基础和面向任务的奖励信号中强化学习来优化模型。我们使用多跳提取式问答(QA)基准、HotpotQA和2WikiMultiHopQA来评估我们的方法。实验结果表明,我们的方法在答案预测精度方面优于所有基线。我们还发现,强化学习有助于模型产生更高质量的理由,并提高QA表现。
1 引言
2 相关工作
3 LM引导的思维链
4 实验和结果
5 结论
LM引导CoT是一种新的框架,它使用两个模