代码数据在预训练时要训吗？训多少？退火时要放吗？

江湖人称麻花滕

于 2024-09-09 20:29:05 发布

阅读量725

点赞数 15

文章标签：微信 matlab 开发语言语言模型人工智能

本文链接：https://blog.csdn.net/m0_59235699/article/details/142068395

版权

代码数据与代码任务的重要性，恰好有一篇前些天很火的文章，给出了很多关于这方面的详细结论。首先放一张网友总结的图片如下。

传言代码数据在提高通用LLM表现上有很关键作用，但分析代码在非代码任务上的具体影响的工作很有限。作者在自然语言推理、世界知识类任务、代码任务测试上和以LLM-as-a-judge的胜率比较的方式评估从470M到2.8B规模的模型表现。在各类设置中，作者发现了一致的结果，即代码质量的提升对所有任务都有显著的影响。各项结论如下：

代码为其他非代码任务提供关键提升：与仅限于文本的预训练相比，加入代码可使自然语言推理能力相对提升8.2%，世界知识（world knowledge）相对提升4.2%，生成式的胜率（generative win-rates）提升6.6%，代码性能则提升了12倍。
代码质量和特性很重要：使用标记语言、GitHub提交记录和合成生成的代码等与代码相关的数据集，可以提升预训练的性能。特别是，使用高质量的合成代码数据集进行训练，与基于网络的代码数据（取自The Stack）相比，自然语言推理能力提高了9%，代码性能提高了44%；
代码在冷却(Cooldown)阶段（在训练最后阶段提高高质量数据权重并退火学习率）能进一步提升所有任务的性能：在预训练的冷却阶段包含代码数据，并增加高质量数据集的权重，相较于冷却前的模型，自然语言推理能力提升了3.6%，世界知识提升了10.1%，代码性能提升了20%。

论文的框架见figue1，总结了作者的实验。

首先对实验的数据有个感知：对于纯文本数据来说，取自SlimPajama预训练语料库，滤掉代码及代码相关数据后剩下503B token；对于代码数据，有以下四类：1.基于网络的代码数据：过滤后的The Stack数据集（从Github爬取的有license的数据），按质量与语言过滤后有139B数据，2.Markdown数据：180B的标记语言如Markdown, CSS和HTML等，3.合成代码数据：3.2B的私有的Python编程题数据，均被验证过正确性，作者将这部分看作高质量数据，4.相近代码的数据：包括Github commit，Jupyter notebook，StackExchange threads之类的数据，这部分数据量为21.4B。另外关于预训练冷却数据集，由高质量文本、数学、代码和指令式文本数据集组成。

评估的具体任务和模型细节略过不表，关于训练的数据量可能更重要：作者共预训练了64个模型，在预训练阶段训了200B，在冷却阶段训了40B。

以下分部分讲一下详细的结论，提到的一些模型可见table2，可以看一下有个印象以防看晕：

【用代码模型初始化训练LLM的影响，见figure2】

使用代码预训练模型进行初始化可以提升自然语言任务的表现。基于100%和50%代码模型的持续文本预训练，分别相比于仅使用文本的基线，在推理任务中带来了8.8%和8.2%的相对提升。对于知识任务，尽管使用100%代码进行初始化的表现与仅使用文本的基线相同，但50%代码的模型取得了4.2%的相对提升。
使用100%和50%代码模型进行的持续文本预训练也提高了开放式生成的质量，两者的胜率均达到了53.3%。
完全平衡的预训练（50%代码50%文本一起训400B）在代码生成性能上表现最佳，因为这很大程度上取决于代码数据的比例。然而，仅使用平衡数据的模型在自然语言任务中落后于代码初始化（用代码训200B然后训200B文本）和平衡初始化（用50%代码50%文本初始化然后训200B文本）的文本模型（balanced→text, code→text），可能的结论是如果代码数据量恒定，为了加强自然语言任务，不如将代码数据往前面放而不是一直混着训。

【参数规模的影响，见figure3】

将模型规模从470M扩展到2.8B，在相同的token数量下，模型在自然语言推理和知识任务中的平均结果分别提升了30%、31.7%和33.1%（对于balance, balanced→text和code→text三种模型）。尤其是在世界知识领域，2.8B模型的表现大约是470M模型的三倍。
就使用代码预训练模型进行初始化而言，470M参数规模下观察到的趋势在2.8B模型中同样适用。code→text和balanced→text模型相比于平衡模型分别提升了6.9%和6.1%，但在代码生成性能上显著落后，这表明在更大规模下，自然语言任务和代码生成之间存在更高程度的制衡，说人话就就是对于更大的模型，如果要在后期保持代码能力，代码数据是更加需要继续喂的。

【预训练中代码数据比例的影响，见figure4】

为了在世界知识和自然语言推理基准测试中获得最高的平均性能，最优的代码比例为25%。当代码比例达到75%时，平均性能开始下降，特别是在代码比例最高时，世界知识的性能显著下降，降幅高达86.1%。
如果不包括任何代码数据，自然语言推理的性能会受损，相比于使用25%代码进行预训练，性能下降了3.4%。
代码性能基准随着代码数据比例的增加几乎呈线性提升。在预训练中将代码比例从25%增加到100%，代码性能提升了2.6倍。

【代码质量与性质在通用表现上的影响，见figure5】

高质量的合成代码数据，即使比例小，也能有强大的影响。在仅代码预训练中，合成代码数据（code+synth）相对于仅使用Stack数据集中来自网络的代码训练的基线模型，在自然语言推理方面提升了9%的相对性能，在代码基准测试中提升了44.9%。
高质量的合成代码数据带来的改进也可以转移到持续预训练中。使用合成代码数据的最佳变体（balanced+synth→text）相比于不含合成代码数据的相同变体（balanced+synth→text），分别在自然语言推理和代码生成方面实现了2%和35%的相对提升。

【在冷却阶段包含代码的影响，见figure6和7】

在冷却阶段包括代码，并对高质量数据源进行加权处理，相较于没有冷却的模型，在自然语言推理中提升了3.6%、在世界知识中提升了10.1%、在代码性能中提升了20%。然而，如果冷却阶段不包括代码，模型在自然语言推理和代码基准测试中的性能并不会提高，仅在世界知识任务中相较于无冷却状态有3.6%的相对提升。
无论是否包括代码，冷却阶段都显著提升了生成质量（由LLM评判）。然而，在冷却阶段包括代码能够带来最佳的生成质量，相较于没有代码的冷却阶段，对比无冷却阶段，生成胜率额外提高了4.1%。

【比较所有预训练recipes】

总结实验，与仅文本预训练相比，在最佳的变体balanced→text中，加入代码使得自然语言推理提升了8.2%，世界知识提升了4.2%，生成胜率提升了6.6%，代码性能提升了12倍。
进一步在冷却阶段加入代码，与冷却前的模型相比，使balanced→text的结果在自然语言推理、世界知识和代码性能上分别提升了3.6%、10.1%和20%，从而使其在非代码任务上成为总体表现最佳的模型变体。
就代码性能而言，balanced-only取得了最佳结果（为balanced→text结果的1.4倍），然而balanced→text在非代码任务上总体表现比balanced-only模型高出2.5%。
比较成对模型的生成质量，balanced-text在和text-only模型比较时的胜率更高，达到了37.7%对34.7%；而balanced-only模型在对抗text-only模型时落后，胜率为32.7%对35.7%。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

江湖人称麻花滕

关注

15
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
代码数据在预训练时要训吗？训多少？退火时要放吗？

在预训练的冷却阶段包含代码数据，并增加高质量数据集的权重，相较于冷却前的模型，自然语言推理能力提升了3.6%，世界知识提升了10.1%，代码性能提升了20%。论文的框架见figue1，总结了作者的实验。首先对实验的数据有个感知：对于。
复制链接

扫一扫