《论文讲解》ReFT: Reasoning with Reinforced Fine-Tuning

最新推荐文章于 2024-11-06 06:00:00 发布

Allan Jie

最新推荐文章于 2024-11-06 06:00:00 发布

阅读量2.1k

点赞数 21

分类专栏：自然语言处理文章标签：自然语言处理 nlp 语言模型

本文链接：https://blog.csdn.net/allanjie/article/details/136005176

版权

4 篇文章

订阅专栏

ReFT: Reasoning with Reinforced Fine-Tuning

这篇论文主要讲如何使用SFT的数据做更好，更聪明的微调，在同样SFT CoT数据情况下，我们看到用ReFT 的效果要远远好于 SFT，至少是在数学解题的这个领域上。

SFT 在CoT的数据上进行微调：

SFT在 CoT的数据中微调，最终得到的模型，大概率是overfit 我们的训练数据的，也就是说会更偏向于我们的CoT结果。

但是往往在推理过程中，自然语言不仅仅只有一种CoT，我们很容易的就能写出不一样的CoT。
在这里插入图片描述
图片来源于 https://www.superannotate.com/blog/reinforced-fine-tuning#results

在ReFT中，解决这个问题的办法，也是非常显而易见，主要通过采样。如上图所示，这个方法主要有两个阶段。

第一个阶段 Warm-up：这个时候主要是让模型熟悉如何生成数学解题的方案，让模型有一个大概的思路，但不需要太准确。具体到实现的时候，我们只需要让模型在CoT 数据上Fine-Tune 1 ~ 2 epoch 即可
第二个阶段 Reinforcement Learning: 这个阶段就是让 policy $\pi$ （或者叫模型）自己去采样生成一些答案，在这个阶段我们还是用SFT CoT 本身的训练数据。并没有任何额外的数据。
- Reward: 这个阶段的reward，我们可以直接用数据中的 $\boldsymbol{y}$ 来判断结果是否正确。从而得到reward, 我们不需要额外训练reward model，这里的reward 是一个groundtruth reward.
- 整个过程使用PPO的方法进行训练。最后得到更好的policy
总的来说：我们是用SFT的数据，希望得到一个比SFT更好的policy。

更好的泛化性能：因为我们在后面的训练，完全不需要用到 CoT $\boldsymbol{e}$ 的标注数据，完全依赖模型自己去探索怎么样的CoT 是正确的。
相比常规RLHF训练简单: 不需要标注额外数据训练Reward Model, 不需要额外数据提高policy. 当然这里作者也认为更多的数据能提高效果，但这并不是这个文章的目的。
可用性: 这个方法没有一些特定的restriction，在其他任务上也是可以用到的，适用于大家SFT数据少的时候，我们做一些效果上的性能提升。
更好的效果：最后作者也在GSM8K上做实验，证明更好的policy也能在Majority Voting和进一步Reranking上面有效果的提升，而且也是非常的明显。