论文解读——DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

原文地址:[2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

由于数学推理的复杂性和结构化特性,对语言模型提出了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B,它在 DeepSeek-Coder-Base-v1.5 7B 的基础上,利用来自 Common Crawl 的 1200 亿个与数学相关的标记进行预训练,并结合自然语言和代码数据。DeepSeekMath 7B 在 MATH 基准测试中取得了令人印象深刻的 51.7% 的得分,该基准测试是竞赛级别的,并且没有依赖外部工具包和投票技术,其性能接近 Gemini-Ultra 和 GPT-4。DeepSeekMath 7B 在 64 个样本上的自一致性在 MATH 上达到了 60.9%。DeepSeekMath 的数学推理能力归功于两个关键因素:首先,我们通过精心设计的 数据选择管道,利用了公开可用网络数据的巨大潜力。其次,我们引入了群体相对策略优化 (GRPO),它是近端策略优化 (PPO) 的一种变体,它增强了数学推理能力,同时优化了 PPO 的内存使用。

1. Introduction

大型语言模型 (LLM) 彻底改变了人工智能中数学推理的方法,推动了定量推理基准 (Hendrycks 等人,2021) 和几何推理基准 (Trinh 等人,2024) 的重大进步。此外,这些模型已被证明有助于人类解决复杂的数学问题 (Tao,2023)。然而,GPT-4 (OpenAI,2023) 和 Gemini-Ultra (Anil 等人,2023) 等尖端模型尚未公开发布,目前可访问的开源模型在性能上远远落后。

在本研究中,我们介绍了 DeepSeekMath,这是一种特定领域的语言模型,它在数学能力方面显著优于开源模型,并在学术基准测试中接近 GPT-4 的性能水平。为了实现这一目标,我们创建了 DeepSeekMath 语料库,这是一个大规模高质量的预训练语料库,包含 1200 亿个数学标记。该数据集是从 Common Crawl (CC) 中提取的,使用基于 fastText 的分类器(Joulin 等人,2016)。在初始迭代中,分类器使用来自 OpenWebMath(Paster 等人,2023)的实例作为正例,同时结合其他网页的多样化选择作为负例。随后,我们使用分类器从 CC 中挖掘额外的正例,这些正例通过人工标注进一步细化。然后使用此增强数据集更新分类器以提高其性能。评估结果表明,大规模语料库质量很高,因为我们的基础模型 DeepSeekMath-Base 7B 在 GSM8K(Cobbe 等人,2021)上取得了 64.2% 的成绩,在竞赛级别的 MATH 数据集(Hendrycks 等人,2021))上取得了 36.2% 的成绩,优于 Minerva 540B(Lewkowycz 等人,2022a)。此外,DeepSeekMath 语料库是多语言的,因此我们注意到中文数学基准测试(Wei 等人,2023;Zhong 等人,2023)有所改进。我们相信我们在数学数据处理方面的经验是研究界的一个起点,未来还有很大的改进空间。

DeepSeekMath-Base 初始化于 DeepSeek-Coder-Base-v1.5 7B (Guo 等人,2024)),我们注意到从代码训练模型开始比从通用 LLM 开始是一个更好的选择。此外,我们观察到数学训练也提高了模型在 MMLU (Hendrycks 等人,2020) 和 BBH 基准 (Suzgun 等人,2022)) 上的能力,表明它不仅增强了模型的数学能力,还放大了其一般推理能力。 

预训练后,我们使用链式思维(Wei 等人,2022))、程序思维(Chen 等人,2022;Gao 等人,2023))和工具集成推理(Gou 等人,2023)数据对 DeepSeekMath-Base 进行数学指令微调。最终得到的模型 DeepSeekMath-Instruct 7B 击败了所有 7B 对比模型,并且与 70B 开源指令微调模型相当。

此外,我们引入了群体相对策略优化 (GRPO),它是近端策略优化 (PPO) (Schulman 等人,2017) 的一种变体强化学习 (RL) 算法。GRPO 摒弃了评论家模型,而是从群体得分中估计基线,从而显著减少了训练资源。通过仅使用英语指令微调数据的子集,GRPO 在强大的 DeepSeekMath-Instruct 上取得了显著改进,包括强化学习阶段的域内 (GSM8K: 82.9% → 88.2%,MATH: 46.8% → 51.7%) 和域外数学任务 (例如,CMATH: 84.6% → 88.8%)。我们还提供了一个统一的范式来理解不同的方法,例如拒绝采样微调 (RFT) (Yuan 等人,2023a)、直接偏好优化 (DPO) (Rafailov 等人,2023)、PPO 和 GRPO。基于这种统一的范式,我们发现所有这些方法都被概念化为直接或简化的 RL 技术。我们还进行了广泛的实验,例如在线与离线训练、结果与过程监督、单轮与迭代 RL 等等,以深入研究这种范式的基本要素。最后,我们解释了为什么我们的 RL 提高了指令微调模型的性能,并进一步总结了基于这种统一范式实现更有效 RL 的潜在方向。

备注:RFT这里提供了论文来源

1.1. Contributions

我们的贡献包括可扩展的数学预训练,以及对强化学习的探索和分析。

  • 大规模数学预训练

我们的研究提供了令人信服的证据,表明公开可访问的 Common Crawl 数据包含对数学目的有价值的信息。通过实施精心设计的數據選擇管道,我们成功构建了 DeepSeekMath 语料库,这是一个高质量的数据集,包含从网页中过滤出的数学内容的 1200 亿个标记,其大小几乎是 Minerva(Lewkowycz 等人,2022a)使用的数学网页的 7 倍,也是最近发布的 OpenWebMath(Paster 等人,2023)的 9 倍。

我们预训练的基模型 DeepSeekMath-Base 7B 在性能上与 Minerva 540B (Lewkowycz 等人,2022a)) 相当,这表明参数数量并非数学推理能力的唯一关键因素。一个在高质量数据上预训练的更小模型也能取得不错的性能。

 我们分享了数学训练实验的结果。在数学训练之前进行代码训练可以提高模型解决数学问题的能力,无论是否使用工具。这为长期存在的问题提供了一个部分答案:代码训练是否能提高推理能力?我们认为可以,至少对于数学推理而言。

尽管在 arXiv 论文上进行训练很常见,尤其是在许多与数学相关的论文中,但它并没有在本文采用的所有数学基准测试中带来显著的改进。

  • 强化学习的探索与分析

我们介绍了群体相对策略优化 (GRPO),这是一种高效且有效的强化学习算法。GRPO 摒弃

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值