突破数据合成scaling瓶颈!7B模型可以赶超GPT4-Turbo

9cbd2af3046ec0f9c641a002b4621d7b.jpeg

作者: 丁誉洋
项目链接: https://scalequest.github.io/

复杂任务的推理能力已成为当前大语言模型的核心竞争力,也是各大厂商争相角逐的关键领域。OpenAI将其 o1 模型定位为"解决复杂问题的推理模型",幻方、千问等团队也相继推出了专注于数学和编程的领域大模型。

高质量的训练数据是提升大语言模型推理能力的基础。然而,由于人工标注成本高昂,大规模的高质量数据难以获取。现有研究表明,合成数据可以作为一种高效的替代方案。但目前开源合成数据在数据质量数据多样性上仍存在不足,进而导致随着训练数据规模的扩大,模型的训练效果难以持续稳定提升。

我们提出了一种新的数据生成方法ScaleQuest,生成的数据有以下优势:

  • 可扩展性强:如图1右图所示,随着训练数据的扩大,模型性能持续提升。和现有的开源数据集相比,突破了合成数据scaling瓶颈。并且随着数据规模继续scaling,模型效果有望达到GPT-4o同等效果甚至有超越的潜力

  • 经济高效:解锁了小模型进行数据合成的潜力。整个数据合成过程只使用了开源7B小模型和少量问题样本,整套流程约522.9GPU hours (A100-40G-PCIe,8卡服务器约3天),以非常小的成本合成了高质量的数据。

  • 数据质量高:我们7B规模的模型超过了GPT-4和很多70B规模的模型,达到GPT-4-Turbo的水平(如图1左图所示)。值得一提的是,我们的开源训练数据比闭源数据达到的效果更好。

c695a25709832f7dc68130eb5a284fe9.png
图1:左图表示不同模型在MATH评测集上的结果;右图表示基于不同开源数据集训练的模型性能关于训练数据量的scaling曲线。红框表示我们的方法

合成数据的scaling瓶颈

一个高质量的问题对模型的提升至关重要,也是很多数据合成工作的着力点(比如MetaMathQA[1], MAmmoTH[2])。现有的合成数据方法通常基于有限的预设问题和知识生成新问题。然而,随着数据规模的扩大,这种生成方式逐渐暴露出局限性,导致生成的问题趋于重复和同质化,降低了数据的多样性。结果是,随着训练数据的不断扩展,模型性能难以持续提升,形成了扩展瓶颈(scaling bottleneck)。

这些限制成为模型生成的束缚。为了解决这一问题,我们尝试去除模型生成过程中的限制,鼓励模型开放式地生成问题。实现上,我们发现仅仅给模型提供一个“<bos>”词元就可以让模型逐词生成一个问题(做法上和Magpie[3]类似)。进一步的,我们认为现有模型具备丰富的专业知识来解决问题,因此也可以利用这些内在知识提出新问题。然而模型自身尚不具备这一能力,于是我们提出了一套方案来激发模型的问题自生成能力。

数据合成方法ScaleQuest

7a571010af0e7ec82f630cfeb3f178cb.png
图2:ScaleQuest方法概览

ScaleQuest首先通过QFT和QPO训练出一个问题生成器,然后利用这些生成器进行开放式问题采样,并对生成的问题进行进一步筛选,最终基于筛选出的高质量问题生成相应的解答。

  1. 问题微调 (Question Fine-Tuning, QFT)

为了激活模型的问题生成能力,我们首先进行问题微调(QFT),即使用一小部分问题对现有模型进行训练。基于DeepSeekMath-7B-RL和Qwen2-Math-7B-Instruct,我们训练了两个问题生成器,使用了来自GSM8K和MATH训练集的约15,000道问题。在此过程中,我们验证了模型是激发其问题生成能力,而非简单记忆训练中的问题。具体来说,我们用两个差异很大的问题集来分别训练相同的模型,发现无论使用哪个子集进行训练,模型最终生成的问题都趋于同一个难度分布。

  1. 问题偏好优化(Question Preference Optimization, QPO)

我们进一步通过偏好微调(QPO)优化了这两个问题生成器,重点关注问题的可解性(solvability)和难度(difficulty)。ScaleQuest使用经过QFT训练后的模型生成问题集合,并通过GPT-4o-mini对问题的可解性和难度进行进一步优化。优化后的问题作为,源问题作为,构建偏好对。我们去掉DPO[4]的损失中的conditional的部分,得到QPO的优化目标为:

5991db7de8a92d99b9b67214e35bcfc4.png
图3:QPO Loss
  1. 问题筛选

在完成QFT和QPO阶段后,我们得到了两个问题生成器:DeepSeekMath-QGen 和 Qwen2-Math-QGen。然而,生成的问题仍存在一些小问题,因此我们采用了筛选方法进行处理,包括语言筛选、可解性筛选和难度采样。

语言筛选: 问题生成模型仍然会生成大量其他语言的数学问题,约占 20%。由于我们的重点是英文数学问题,因此我们通过识别包含非英文字符的问题并筛除这些样本,来去除非英文问题。

可解性筛选: 尽管 QPO 有效地提升了生成问题的可解性,但仍有一些问题不合逻辑。主要原因包括:(1) 问题约束不完善,出现缺失条件、冗余条件或逻辑不一致的情况,(2) 问题没有产生有意义的结果(例如,涉及人数的问题应得到非负整数作为答案)。为筛除此类样本,我们使用 Qwen2-Math-7B-Instruct 评估问题是否有意义以及条件是否充分。

难度采样: 我们基于DeepSeekMath-7B训练了一个难度打分器模型,然后去除生成数据中难度很低的一些样本。

  1. 回答生成与奖励筛选

我们使用Qwen2-Math-7B-Instruct生成回答,并将奖励模型的评分作为评估回答质量的指标。从5个候选回答中选择奖励评分最高的回答,作为最终的回答。

如图4所示,我们展示了整个数据构建流程的示意图。最终,ScaleQuest生成了约一百万条训练数据。经过分析(见图5),我们发现数学问题在各类别间分布广泛且较为均衡。与现实标注数据集如GSM8K和MATH相比,ScaleQuest的覆盖面也很全面。

36eb1345f688662a746a71154ade8b8e.png
图4:数据集构建流程
1e9b2c2a14f377ba68378c049aefdc8e.png
图5:左图表示合成数据的问题类别分布情况;右图采用t-SNE方法可视化了数据覆盖情况

实验结果

我们的评测涵盖了两个通用大模型(Mistral-7B和Llama3-8B)以及两个数学专用模型(DeepSeekMath-7B和Qwen2-Math-7B)。评估过程涉及从基础到高级的多个难度层次,包括广泛使用的GSM8K(小学水平)和MATH(竞赛水平),以及更具挑战性的College Math(大学水平)和Olympiad Bench(奥林匹克水平)基准测试。所有列出的结果均基于0-shot pass@1 CoT设置。

结果如图6所示。ScaleQuest显著优于以往的合成方法,在通用基础模型和数学专用基础模型上,平均性能提升范围为5.6%至11.5%。Qwen2-Math-7B-ScaleQuest在MATH基准测试中实现了73.4的准确率,与GPT-4-Turbo的表现相当。在域外任务中,Qwen2-Math-7B-ScaleQuest超越了其教师模型 Qwen2-Math-7B-Instruct,展现出了自增强(self-improvement)能力。值得注意的是,Qwen2-Math-7B-Instruct 使用了Qwen2-Math-RM-72B进行群体相对策略优化(Group Relative Policy Optimization, GRPO),而我们的模型仅是一个指令微调版本。

9fcae671808e93e692481e527af7ac77.png
图6:在合成数据上的微调结果

分析

  1. 消融实验

首先,为了验证我们各个子方法(包括QFT、QPO和奖励筛选)的有效性,我们进行了消融实验。我们从三个维度评估了模型生成问题的质量:可解性、难度以及在指令微调中的表现。结果如图7所示,在三个评估维度上,我们的方法都有有效的提升。

16920b2a63f1feab762ce3e46efc1a71.png
图7:消融实验结果,说明QFT,QPO以及奖励筛选的有效性
  1. 多个问题生成器有助于提高合成数据的多样性

为了探讨使用多个问题生成器的影响,我们对比了单一生成器生成的数据与两者混合生成的数据的效果。我们将数据集总规模固定为40万,并使用这些数据对Mistral-7B进行微调。正如图8所示,混合数据的表现优于单个生成器生成的数据。可能的解释是混合数据增加了数据的多样性。事实上,我们观察到DSMath-QGen倾向于生成较为简单、贴近现实的问题,而Qwen2-Math-QGen则更偏向生成具有挑战性、理论驱动的问题。

8d6e19abeabea27e48b54168f7924995.png
图8:多个问题生成器合成数据的效果对比
  1. 成本分析

数据合成过程是在配备8块A100-40G-PCIe GPU的服务器上进行的。我们在图9中总结了整体成本。生成100万个数据样本仅耗费了522.9个GPU小时(约合8 GPU服务器上的 2.7天),预计云服务器租赁费用为680.8美元。这仅为使用 GPT-4o生成相同数据成本的约10%。这表明,我们的数据生成方法在成本效益上显著优于其他方法。

b32a6ffc51e3b4856034a591180d8755.png
图9:数据合成成本分析

未来展望

  • 大规模且多样化的高质量数据:我们选择了数学推理作为案例研究,来展示我们方法的有效性。未来,我们将关注更广泛且更复杂的任务,例如编程竞赛和科学问题。此外,我们未来的研究还将致力于不断扩展数据合成的规模,以进一步探索合成数据的扩展规律,并寻求一种更高效的数据生成扩展方法。

  • 自我提升能力:我们的实验表明模型具有自我提升的能力,即模型能够生成比其原始训练集质量更高的数据。这一点在Qwen2-Math-7B-ScaleQuest略微优于Qwen2-Math-7B-Instruct中有所体现。为了进一步探索自我提升的上限,未来的研究将重点在于合成偏好微调数据,以更好地对齐大型语言模型(LLMs)。

参考资料

[1]

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models: https://arxiv.org/abs/2309.12284,

[2]

MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning: https://arxiv.org/abs/2309.05653,

[3]

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing: https://arxiv.org/abs/2406.08464,

[4]

Direct Preference Optimization: Your Language Model is Secretly a Reward Model: https://arxiv.org/abs/2305.18290,


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

965aff79e21a98ea200a2221966db55c.png

id:DLNLPer,记得备注呦

动物目标检测数据集 一、基础信息 数据集名称:动物目标检测数据集 图片数量: - 训练集:9,134张图片 - 验证集:1,529张图片 - 测试集:1,519张图片 总计:12,182张图片 分类类别: Bear(熊)、Cat(猫)、Cattle(牛)、Chicken(鸡)、Deer(鹿)、Dog(狗)、Elephant(大象)、Horse(马)、Monkey(猴子)、Sheep(绵羊) 标注格式: YOLO格式,包含归一化坐标的边界框和数字编码类别标签,支持目标检测模型开发。 数据特性: 涵盖俯拍视角、地面视角等多角度动物影像,适用于复杂环境下的动物识别需求。 二、适用场景 农业智能监测: 支持畜牧管理系统开发,自动识别牲畜种类并统计数量,提升养殖场管理效率。 野生动物保护: 应用于自然保护区监控系统,实时检测特定动物物种,辅助生态研究和盗猎预警。 智能养殖设备: 为自动饲喂系统、健康监测设备等提供视觉识别能力,实现精准个体识别。 教育研究工具: 适用于动物行为学研究和计算机视觉教学,提供标准化的多物种检测数据集。 遥感图像分析: 支持航拍图像中的动物种群分布分析,适用于生态调查和栖息地研究。 三、数据集优势 多物种覆盖: 包含10类常见经济动物和野生动物,覆盖陆生哺乳动物与家禽类别,满足跨场景需求。 高密度标注: 支持单图多目标检测,部分样本包含重叠目标标注,模拟真实场景下的复杂检测需求。 数据平衡性: 经分层抽样保证各类别均衡分布,避免模型训练时的类别偏差问题。 工业级适用性: 标注数据兼容YOLO系列模型框架,支持快速迁移学习和生产环境部署。 场景多样性: 包含白天/夜间、近距离/远距离、单体/群体等多种拍摄条件,增强模型鲁棒性。
数据集介绍:农场与野生动物目标检测数据集 一、基础信息 数据集名称:农场与野生动物目标检测数据集 图片规模: - 训练集:13,154张图片 - 验证集:559张图片 - 测试集:92张图片 分类类别: - Cow(牛):农场核心牲畜,包含多种姿态和场景 - Deer(鹿):涵盖野外环境中的鹿类目标 - Sheep(羊):包含不同品种的绵羊和山羊 - Waterdeer(獐):稀有野生动物目标检测样本 标注格式: YOLO格式标准标注,含精确边界框坐标和类别标签 数据特征: 包含航拍、地面拍摄等多视角数据,适用于复杂环境下的目标检测任务 二、适用场景 智慧农业系统开发: 支持畜牧数量统计、牲畜行为监测等农业自动化管理应用 野生动物保护监测: 适用于自然保护区生物多样性监测系统的开发与优化 生态研究数据库构建: 为动物分布研究提供标准化视觉数据支撑 智能畜牧管理: 赋能养殖场自动化监控系统,实现牲畜健康状态追踪 多目标检测算法验证: 提供跨物种检测基准,支持算法鲁棒性测试 三、数据集优势 多场景覆盖能力: 整合农场环境与自然场景数据,包含光照变化、遮挡等真实场景 精确标注体系: - 经专业团队双重校验的YOLO格式标注 - 边界框精准匹配动物形态特征 数据多样性突出: - 包含静态、动态多种动物状态 - 涵盖个体与群体检测场景 任务适配性强: - 可直接应用于YOLO系列模型训练 - 支持从目标检测扩展到行为分析等衍生任务 生态研究价值: 特别包含獐等稀有物种样本,助力野生动物保护AI应用开发
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值