Skywork-Math: 大规模语言模型中数学推理的数据扩展规律——故事继续
摘要
本文研究了可能提升大型语言模型(LLM)数学推理能力的潜在因素。我们认为,现代LLM在数学推理能力方面的数据扩展法则还远未达到饱和,并指出模型质量随着数据量增加而不断提升。为支持这一观点,我们推出了Skywork-Math模型系列,这些模型在常见的7B模型基础上,通过我们提出的包含250万实例的Skywork-MathQA数据集进行监督微调(SFT)。Skywork-Math 7B在MATH竞赛级别基准上获得了51.2%的准确率,在GSM8K基准上获得了83.9%的准确率,仅使用SFT数据就超越了早期版本的GPT-4在MATH上的表现。Skywork-Math模型的优异表现得益于我们创新的两阶段数据合成和模型SFT流水线,其中包括三种不同的增强方法和多样化的种子问题集,确保Skywork-MathQA数据集在不同难度级别上保持数