解锁数据炼金术：使用 ProX 提升预训练数据质量

步子哥

于 2024-09-27 07:31:34 发布

阅读量334

点赞数 9

文章标签：人工智能服务器算法

本文链接：https://blog.csdn.net/weixin_36829761/article/details/142578559

版权

😎 引言：模型的烦恼，数据的救星

在当今的人工智能世界，大型语言模型（LLMs）如同一位贪婪的读者，吞噬着来自互联网的大量数据。问题是，这些数据可谓鱼龙混杂。你能想象一个模型读完了无数的垃圾广告、无意义的链接和代码碎片后，还能保持“头脑清醒”吗？显然，不行！

就像一位渴望知识的学者，LLM 需要高质量、干净的数据来训练。于是，人类专家们绞尽脑汁，设计了大量过滤规则，试图从浩瀚如海的数据中挑出精华。然而，传统的规则过滤方式就像用漏勺捞水，不仅效率低下，甚至连好东西也可能被过滤掉。更糟糕的是，面对每个数据实例量身定制规则简直是天方夜谭。

这时候，ProX 横空出世，它是一位数据炼金术士，能够像专家一样自动处理数据，并且规模化地实现这一目标。今天，我们就来剖析一下这个神奇的框架，看看它如何为 LLM 提供优质“食材”。

🧙‍♂️ ProX：每个数据都有专属的“炼金术”

🔨 数据炼金任务的定义

ProX 的核心思想是将数据精炼视为一个“编程任务”。模型会根据每个数据生成并执行精细的操作，就像专家亲自上阵一样。这个框架的工作流程大致如下：

数据适应：首先，我们让一个小型基础模型（参数少于 1B）通过微调学习如何处理数据精炼任务。这些精炼任务可能包括字符串规范化、噪声行删除等。
生成操作：接下来，精炼模型会为每个数据生成一个操作程序，如下图所示：

执行程序：生成的操作会被一个执行器执行，最终生成经过精炼的高质量语料库。

这套流程不仅提升了数据的质量，还能让模型在训练时事半功倍，省下了大量计算资源。

👩‍🔬 ProX 的两阶段编程设计

ProX 的数据精炼分为两大阶段：

文档级编程：这一阶段的目标是粗粒度地处理数据，主要关注整个文档的质量。如果文档质量太差，ProX 会果断将其丢弃。
段落级编程：在这个阶段，ProX 会对文档进行更细致的处理，删除无用的行或替换无意义的字符串。

我们可以用以下的伪代码来模拟这些操作：

def drop_doc():
    """删除整个文档"""

def normalize(source_str, target_str):
    """将源字符串替换为目标字符串"""

def remove_lines(line_start, line_end):
    """删除指定行"""

# 示例操作
remove_lines(0, 5)  # 删除前五行
normalize("http://example.com", "")  # 去掉无用的链接

这套编程方案非常灵活，能够处理各种类型的数据噪声，确保最终的数据质量。

🤖 模型适配与自动精炼

要让 ProX 生成这些操作程序并不是一件轻松的事。即使是最强大的 LLM 在生成自定义 API 调用时也颇为吃力。因此，我们需要通过一些“种子数据”，利用强大的 LLM 来注释这些操作，并通过微调训练得到适合数据精炼的小型模型。

🧪 实验：ProX 的魔法表现

在一系列实验中，ProX 展现出了其强大的数据精炼能力。无论是在大规模预训练语料库（如 C4、RedPajama-V2），还是在特定领域（如数学）中，ProX 都取得了显著的提升。

🎯 实验设置

我们使用了多种预训练数据集，包括：

RedPajama-V2：一个包含 30 万亿个 token 的互联网大规模数据集。
C4：一个包含 1980 亿 token 的常见数据集。
OpenWebMath：一个数学领域的特定数据集。

在这些数据上，我们对比了 ProX 与其他数据选择方法的表现，结果如图所示：

📊 ProX 在不同模型规模上的表现

无论是小规模模型（0.3B 参数）还是大规模模型（1.7B 参数），ProX 在精炼数据后都能让模型的性能稳步提升，平均提升超过 2%。

此外，ProX 对训练效率的提升也是显而易见的。在使用 ProX 精炼后的数据上，模型仅需要使用原始数据 1/20 的计算量就能达到同样的性能。

🔍 深度分析：ProX 的影响

🧠 对原始数据的影响

ProX 的精炼操作显著减少了原始数据的噪声。例如，在 RedPajama-V2 数据中，ProX 精炼后的文档平均长度从 1217 个 token 增加到 2000 多个 token。这表明 ProX 有效地过滤掉了那些冗余或无意义的短文档。

💻 计算开销分析

虽然 ProX 需要额外的计算资源来进行数据精炼，但相比于训练模型本身，这些开销是可以接受的。随着模型规模的增大，ProX 的相对计算开销还会进一步降低，这使得它在大规模数据处理场景中具有更高的性价比。

🚀 结语：ProX 的未来

ProX 的成功展示了自动化数据精炼的巨大潜力。通过更好地精炼数据，ProX 不仅提升了模型的性能，还大幅降低了计算成本。这为未来的高效模型训练开辟了新的可能性。

展望未来，ProX 还可以扩展到更多领域，如代码生成和多语言数据处理。我们相信，数据精炼将在未来的大规模模型训练中扮演更加重要的角色。

参考文献

Zhou, Fan, et al. Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale. arXiv:2409.17115v1, 2024.
Together Computer. RedPajama: An Open Dataset for Training Large Language Models, 2023.
Penedo, Guilherme, et al. The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, arXiv:2406.17557, 2024.