【万字长文+数据配方】我们总结了SOTA模型的“食谱”,终于公开这份“数据选择的黄金法则”!

一、预训练的数据选择

模型影响力驱动(Influence / Importance-based Selection)

MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models

MATES 提出一种动态、模型感知的数据选择策略。与传统静态过滤方法不同,MATES 认为模型在训练不同阶段对各种类型数据的“偏好”实际是不断变化的,因此数据选择策略也应随训练进展动态调整。

其核心是构建一个“数据影响力模型”。具体流程是:在训练过程中定期对模型进行少量探测(probe),测量不同数据对模型性能的实际影响,并将这些影响作为标签,训练一个轻量模型预测大规模语料中每条数据的潜在影响力。然后在下一阶段预训练中,优先选择预测影响力高的数据。

实验覆盖多个规模的语言模型。结果表明,相比随机采样或静态规则数据过滤,MATES 在多个任务上的平均性能提升显著,同时达到相同性能所需要的计算量大约减少一半。该方法证明:动态、模型状态驱动的数据选择优于固定、一次性的规则,是未来预训练数据管理的方向。

质量 + 多样性平衡(Quality–Diversity Joint Methods)

Harnessing Diversity for Important Data Selection in Pretraining Large Language Models

这篇论文关注一个经典但常被忽视的问题:只根据“重要性”(如影响力或质量)挑选数据,很容易导致所选数据在语言风格、知识类型、语义分布上高度集中,最终损害模型的泛化能力。作者提出 Quad 方法,通过在数据选择中同时优化重要性与多样性来解决这一问题。

Quad 首先通过高效的反向 Hessian 计算方法,为每条数据估计其对模型的影响力。然后将整个语料按语义表示聚类成多个簇,每个簇被视为多臂赌博机问题中的一个“臂”。在选择训练数据时,算法不仅根据影响力选取强数据,也刻意探索那些被选得较少、但有潜在价值的簇,以保证整体的多样性。

实验表明,Quad 在多个基准任务上超过其他数据选择方法,并显著提升模型的零样本能力。这项工作展示多样性在预训练数据选择中与质量同等重要,提出了一个可扩展且实际可用的解决方案。

QuaDMix: Quality–Diversity Balanced Data Selection for Efficient LLM Pretraining

QuaDMix 指出:预训练数据选择中的“质量”和“多样性”往往被分开处理,实际容易带来不平衡,例如高质量数据过于集中于少数领域。为此,QuaDMix 构建一个统一的框架,将这两个因素纳入一个参数化的采样分布中。

方法首先为数据计算多个质量指标,例如语言流畅性、复杂度、干净度等;同时通过领域分类确定其所属领域。然后构建一个依赖“质量向量 + 领域标签”的采样函数,对每条数据分配采样概率。该函数的参数通过轻量实验优化,最终用于完整预训练过程。

结果显示,与只优化质量或多样性的单一策略不同,QuaDMix 的联合策略在多个任务上平均提升超过 7%。该工作证明,平衡质量与多样性的统一框架是更高效的数据选择方式。

Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

这篇论文对数据选择的传统思路 — “根据评分排序,然后取 top-k (最高分数据)” — 发起挑战。作者认为,这种方法的问题在于:评分通常混合了多个相关的维度 (例如语言质量、知识含量、语义复杂度等),这样 top-scored 数据虽然在整体评分上很高,但可能在多个维度上都过于集中,导致数据多样性严重欠缺。更糟糕的是,这种缺乏多样性的选择有时反而使下游性能下降。

为了解决这一问题,他们提出 ODiS (Orthogonal Diversity-Aware Selection)。首先,对数据进行多维评价,至少包括语言质量 (language quality)、知识/事实质量 (knowledge quality)、语义 / 理解难度 (comprehension difficulty) 等多个维度。然后通过PCA将这些维度 “正交” 化 —— 即将不同维度间的相关性移除,使得不同方面真正成为彼此独立的特征维度。对每个正交维度,训练一个打分器,将该维度上的得分 (PCA 投影得分) 回归到数据上,以便于大规模语料上快速打分。最终构造训练集时,不是只从总体评分最高的数据抽,而是从每个正交维度分别选取 top-scored 的数据 (或按比例抽样),从而保证训练集既覆盖多个维度,又保持多样性 (因为不同维度上 top-scored 的数据往往彼此不同)。 实验证明,用 ODiS 选择的数 据训练出的模型,在多个下游任务上显著优于使用传统 基于打分单一指标的 baseline。作者报告,当维度之间的重叠被有效避免(inter-dimension overlap < 2%)时,模型表现更稳定、更优秀。 这篇论文的贡献在于:挑战“高分 = 好训练数据”的直觉,并展示了为什么为了更好泛化,我们需要在数据选择中更细粒度地分解质量指标,并主动保证多样性,而不是简单地选总分最高的数据。

多策略集成驱动(Collaborative / Ensemble Methods)

Efficient Pretraining Data Selection via Multi-Actor Collaboration

既然已有许多先进的数据选择方法 (quality-based / influence-based / diversity-aware / domain-mixing 等),那么是否可以将它们组合起來,以发挥各自优势,同时避开它们之间潜在的冲突?

作者提出一个multi-actor协同的数据选择机制。将不同的数据选择方法看作独立的 “actor”。例如,一个 actor 可能专注于质量 (quality filtering),另一个 actor 专注于多样性 (diversity),还有 actor 可能关注数据对模型影响 (influence)、domain 混合 (domain mixing) 等。在 pretraining 的不同阶段,这些 actor 根据当前模型状态各自更新其优先级规则 (i.e. 根据当前模型表现调整对不同数据的偏好)。一个控制台负责动态调整各个 actor 的权重 (即决定当前由哪些 actor 主导数据选择),从而将多个信号整合起來。

结果表明,与单一方法或静态组合相比,这种 multi-actor 协同机制能 显著加速预训练收敛,并在数据效率上大幅提升。这篇论文展示了一条更加灵活、综合的数据选择路线:不必拘泥于单一策略,而是把多个策略当作专家协同,让系统自身根据模型状态动态选择最合适的方法。

结构化知识/技能驱动(Skill- or Structure-aware Selection)

MASS: Mathematical Data Selection via Skill Graphs

MASS 专注于数学与推理相关数据的预训练数据选择。作者认为,数学语料具有独特的结构与技能依赖,通用的数据过滤方式往往无法有效捕捉这些特性。因此,MASS 提出通过“技能图谱”(skill graph)来建模数学能力之间的关系,并利用其评估训练数据的价值。

方法首先从高质量数学语料中抽取核心数学技能,例如代数、几何、微积分、证明推理等,并构建其图结构。每个节点代表一种技能,边表示技能之间的依赖。然后,针对候选数学语料,系统分析其涉及的技能组合,并将其映射到技能图中,根据覆盖技能的数量、深度和重要性生成质量分数。最后,根据该分数对数据排序,选出最能提升模型数学能力的数据子集。

实验显示,使用 MASS 数据的模型在数学推理任务中表现显著优于使用原始数据的模型,并且在大幅减少 token 数量(通常减少 50%–70%)的情况下,性能仍可提升约 4%–6%。这说明面向特定领域构建结构化技能图,并据此选择训练数据,是提升模型专业能力的一种极为有效的方法。

任务相关性驱动(Task-aware Data Selection)

Language Models Improve When Pretraining Data Matches Target Tasks

这篇论文系统研究了一个关键问题:预训练语言模型时,如果训练数据的分布与目标任务更为一致,模型性能是否会显著提升。作者提出了一种简单而高效的数据选择方法 BETR(Benchmark-Targeted Ranking)。它的基本思想是:将目标任务的样本与预训练语料的一个子集映射到同一向量空间中,计算相似度排序,再用轻量分类器把这种排序推广到整个大规模语料库。如此就能提取出最符合目标任务分布的预训练数据。

作者训练了数百个模型,并拟合了不同数据规模下的 scaling law。结果显示,BETR 选择的数据可带来约 2 倍以上的计算效率提升,模型性能也显著超过使用原始数据或者简单过滤后的数据。特别重要的是,即使目标 benchmark 与下游评测任务并不重叠,在存在分布偏移的情况下,BETR 依然能取得与默认数据相当甚至更好的表现。

文章得出了一个明确结论:预训练数据的分布与任务需求的匹配程度比数据量更重要。通过一种可扩展的轻量方法对预训练语料进行任务相关性排序,可以在不提高计算成本的情况下获得更高质量的模型。

后训练的数据选择

在线和离线数据选择结合

Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward

动机:

现有 RLVR 方法、通过扩大训练数据量和 rollout 数量来提升模型推理能力,但这导致训练成本激增(计算资源、时间)且数据利用率低。

离线数据选择:传统方法需在全集上训练以计算数据选择指标(如奖励趋势、梯度对齐),计算开销大;或忽略样本间关联性(如仅基于难度过滤)。

在线 rollout 效率:大量样本需昂贵 rollout 却对策略更新贡献微小,现有方法(如 GRESO)仅粗粒度过滤零方差样本,未区分样本的探索潜力。

方法:

1. 多维度的离线数据选择

1.1 用 LLM 最后一层 token 嵌入作为样本表征,构建相似度图,其中边权为余弦相似度。

1.2 利用PageRank加权的行列式点过程联合最大化子集多样性与影响力。

1.3 在剪枝后的子集上,用当前策略离线rollout,计算样本准确率作为难度指标。然后按正态分布采样,优先选择中等难度样本。

2. 熵驱动的在线 rollout 剪枝

2.1 基于滑动窗口内历史熵与优势的加权指标获得模型的探索能力,并选择高探索潜力的样本进行在线rollout。

2.2 动态重放历史最少训练的样本,保证所有样本都能得到充分的训练

实验

实验结果表明,本文章的方法仅用20%的数据能逼近全量训练性能,并且训练时间缩短40%,rollout数量减少60%。

本文在三个模型和五个推理数据集上都进行了详细的实验,实验结果表明 DEPO 在各个数据集上都展现出强大的性能和效率优势。

在线数据选择

Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts

论文分析了提示在不同训练epoch中的奖励动态,发现零方差提示(即所有响应的奖励都相同的提示)在训练过程中具有很强的时间一致性。

自适应调整探索概率:采用了一种自适应机制来自动调整探索概率,根据目标零方差比例和实际观察到的零方差比例动态调整探索概率。

自适应采样批次大小:如果当前批次中有效提示的数量不足,算法会根据需要动态调整采样批次大小。

离线数据选择

LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment

梯度对齐:论文利用一阶泰勒展开近似模型参数更新对损失函数的影响,定义了数据点之间的影响力为两个数据点的梯度内积。

可学性: 基于成功概率来衡量数据点的可学性,该指标反映了数据点对模型性能提升的潜在价值。

Learnalign分数:结合数据可学性和梯度对齐,计算LearnAlign分数,用于评估数据点之间的相似性和可学性。

数据选择方法

预热训练:从训练数据集中随机选择一个小子集进行预热训练,以确保更稳定和准确的梯度估计。

梯度信息估计:在预热阶段,计算每个数据点的梯度信息,并通过随机投影将其降维。

LearnAlign分数矩阵计算:基于降维后的梯度信息,计算所有数据点之间的LearnAlign分数,形成一个分数矩阵。

数据选择:根据LearnAlign分数矩阵,选择平均分数最高的前N个数据点,作为最具代表性和可学性的数据子集。

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

论文提出了“1-shot RLVR”的概念,旨在探究仅使用一个训练样本是否能够实现与使用大规模数据集相当的性能提升。

通过分析训练样本的历史方差得分,选择具有最高方差的样本作为训练数据。这种方法基于假设高方差样本在训练过程中可能提供更丰富的信息。

LIMR: Less is More for RL Scaling

使用模型的平均奖励曲线作为参考,计算每个样本的学习轨迹与模型整体学习轨迹的对齐程度。通过计算一个归一化的对齐分数来量化样本对模型学习的贡献,分数越高表示样本与模型学习轨迹的对齐程度越好,对模型优化的价值也越大。

Data-Efficient RLVR via Off-Policy Influence Guidance

将监督学习中的影响函数理论扩展到 RLVR,给出训练样本对策略性能变化的一阶近似贡献度量。

提出离策略影响力估计,用行为策略预先采集的离线轨迹近似当前策略梯度,彻底避免在线采样。

引入稀疏随机投影,在梯度计算前随机丢弃大部分维度,再执行低维投影,降低存储与计算成本,并意外提升内积排序保持精度。

基于上述估计构建多阶段课程强化学习框架 CROPI,每阶段仅选用对验证集影响力最高的小部分数据进行 GRPO 更新。

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

阶段一:用 9 k 均匀难度题、每题 8 rollout,24 k 长度,打破模式坍塌;

阶段二:仅保留最难案例,64 rollout,三阶段递进,持续逼迫模型突破难题边界。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值