大模型 | REFT：强化微调提升大型语言模型的推理能力

最新推荐文章于 2025-04-15 09:57:33 发布

大模型面试

最新推荐文章于 2025-04-15 09:57:33 发布

阅读量1.1k

点赞数 18

文章标签：语言模型人工智能自然语言处理 AI大模型大模型 ai 大语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Code1994/article/details/144579500

版权

REFT：强化微调提升大型语言模型的推理能力

论文链接：https://arxiv.org/pdf/2401.08967

一、摘要

在大型语言模型（LLMs）的领域中，提升模型的推理能力一直是一个重要的研究方向。传统上，通过监督式微调（SFT）和链式思考（CoT）注释来增强模型的推理能力，但这种方法的泛化能力有限。本文提出了一种新的方法——强化微调（ReFT），它通过结合在线强化学习和监督式微调来提升模型的泛化能力。在数学问题解决任务中，ReFT显示出比传统SFT更优越的性能，并且能够通过结合推理时策略进一步提升效果。

在这里插入图片描述

二、引言

随着大型语言模型在各种自然语言处理任务中的应用越来越广泛，如何提高这些模型的推理能力成为了一个研究热点。特别是在数学问题解决领域，模型需要能够理解问题的上下文，并进行逻辑推理以得出正确答案。现有的SFT方法依赖于有限的CoT数据，这限制了模型的泛化能力。ReFT方法通过引入强化学习，使得模型能够从多个推理路径中学习，从而增强其泛化能力。

三、相关工作

在数学问题解决领域，研究者们尝试通过设计更精细的CoT提示和数据工程来提升模型性能。而在强化学习领域，PPO算法被用于自然语言处理任务，以对齐人类偏好。本工作与这些研究相关，但目标是通过强化学习作为一种微调范式来提升模型性能。

四、方法

ReFT方法包含两个阶段：预热阶段和强化学习阶段。

在这里插入图片描述

五、预热阶段

在预热阶段，模型在包含“问题，CoT”元组的数据集上进行微调，使模型具备基本的问题解决能力。CoT生成过程可以分解为一系列下一个标记预测动作，最后一个动作标记 `` 表示生成过程结束。

六、强化学习阶段

在强化学习阶段，模型通过重复采样响应、评估响应答案的正确性，并在线更新其参数来提高性能。使用PPO算法进行训练，模型通过采样多种CoT推理路径来学习，从而获得比SFT更丰富的监督信号。

七、实验

实验在GSM8K、SVAMP和MathQA数据集上进行，使用了CodeLLAMA和Galactica两种基础模型。实验结果表明，ReFT在自然语言和基于程序的CoT上都显示出显著的性能提升和泛化能力。此外，ReFT还能从多数投票和奖励模型重新排名等技术中受益，进一步提升性能。

八、数据集和基础模型

实验使用了三个数学问题数据集：GSM8K、SVAMP和MathQA。GSM8K和SVAMP的答案格式为数值，而MathQA的答案格式为多项选择。实验使用了CodeLLAMA和Galactica两种基础模型，这两种模型在解决数学问题方面表现出色。

九、实验设置

实验中，使用了8个A100-80GB GPU进行训练，并采用了DeepSpeed和HuggingFace Accelerate工具。在ReFT的预热阶段，使用了AdamW优化器，并设置了学习率和批量大小。在强化学习阶段，使用了PPO算法，并设置了相关的超参数。

十、实验结果

ReFT在所有数据集上均优于SFT和其他自训练方法。特别是在CodeLLAMA模型上，ReFT在GSM8K数据集上的N-CoT和P-CoT任务中分别取得了9点和8点以上的提升。此外，ReFT还表现出对多数投票和奖励模型重新排名技术的兼容性，进一步提升了性能。

十一、结论

ReFT作为一种新的微调方法，通过探索多个CoT注释来优化非可微目标，而不是依赖单一CoT注释。实验结果表明，ReFT在性能和泛化能力方面优于SFT，并且与多数投票和奖励模型重新排名等技术兼容。

十二、未来工作

未来的工作将探索离线强化学习技术、开发无需预热的方法以提高训练效率和性能、探索过程性奖励模型在强化学习训练中的应用，并将ReFT应用于更广泛的推理任务。

十三、限制

ReFT需要更多的训练周期才能达到收敛，并且存在奖励黑客问题，即策略可能被操纵，尤其是在最终答案空间有限的情况下。未来的工作将致力于解决这些问题，以提升ReFT的效率和鲁棒性。

十四、如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。