在科技界,无数人都梦寐以求构造出既高效又具备深邃推理能力的智能系统。最近,一则关于“利用强化学习增强小规模语言模型推理能力”的研究掀起了业界热潮。本文将带您走进这一充满智慧与挑战的世界,探讨在资源受限的环境下,小型大语言模型如何借助强化学习(RL)技艺,突破推理瓶颈,并在严苛的训练条件下闪现才智,开启一段奇妙的人工智能冒险之旅。
🌍 起航:小模型的推理革新之路
面对当前庞大的大语言模型(LLMs)所需的高昂计算资源和海量数据,小规模的模型无疑更具普及性和可操作性。文章中的研究者们针对1.5亿参数级别的模型 DeepSeek-R1-Distill-Qwen-1.5B,提出了一种全新的强化学习方法,在仅使用4块 NVIDIA A40 GPU、24小时的训练时间和微薄的费用投入下,使模型在数学推理任务中取得显著提升。试想一下,用 $42 美元的成本换来 AMC23 推理准确率从63%跃升至80%,这无疑为资源匮乏的开发者提供了一条通向高效推理之路的捷径。
研究者们摒弃传统的依赖大量数据和超强计算力的训练模式,采用了一种基于 Group Relative Policy Optimization (GRPO) 的 RL 算法,并结合精心策划的数学推理数据集,从而为模型注入了全新的逻辑思维能力。
🧩 数据魔方:精挑细选与数据结构
为了在有限的数据中激发模型的推理潜力,研究者们首先从两个现成的数据集——s1 数据集和 DeepScaleR 数据集——出发,进行了一系列严格筛选和修整。这种数据精炼流程,就像把粗糙的矿石经过层层锤炼,最终提炼出纯净的金属。在这个过程中,筛选的核心依据之一,是答案中必须包含 LaTeX 的 \boxed{} 命令,这正是数学证明格式的一种独特标记。经过层层精细过滤,最终汇集成一个约39,659个高质量数学推理题目的数据集,为模型提供了充分而精准的训练材料。
研究者们设计出了一种数据挑选工作流:首先保留含 \boxed{} 的题目,再通过 DeepSeek-R1-Distill-Qwen-1.5B 模型去除低难度、平凡的问题,接着利用 Qwen2.5-7B-Instruct 再次去除噪音和冗余,从而确保每一道问题都具有足够挑战性和指导性。这就好似在浩瀚星海中挑选出最亮的群星,为小模型点燃智慧之火。
🚀 强力推进:强化学习与 GRPO 算法
在强化学习部分,研究者们采用了 GRPO 算法,这一算法最大的亮点在于其巧妙地避免了使用单独的 critic 模型,从而大幅降低了计算资源需求。具体来说,对于每一个问题 q q q,GRPO 会采样一组输出 o 1 , o 2 , … , o G {o_1, o_2, …, o_G} o1,o2,…,oG,并借助旧策略 π θ old \pi_{\theta_{\text{old}}} πθold 来估计基线,再通过优化目标函数对新策略 π θ \pi_\theta πθ 进行梯度更新。目标函数可形式化描述为:
J GRPO ( θ ) = E q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ old ( O ∣ q ) 1 G ∑ i = 1 G ( min ( π θ ( o i ∣