基于Qwen2.5技术报告的一些思考

最新推荐文章于 2024-09-29 15:55:25 发布

江小皮不皮

最新推荐文章于 2024-09-29 15:55:25 发布

阅读量553

点赞数 12

文章标签： LLM Qwen SFT o1 语言模型 code 深度学习

本文链接：https://blog.csdn.net/qq128252/article/details/142634861

版权

这些标记对于帮助模型从不同的代码结构中学习至关重要，并使其能够在文件级和存储库级预训练期间处理更长、更复杂的上下文。
在这里插入图片描述

数据类型

论文特别强调了构建高质量、广泛多样的代码预训练数据集：

数据比例

预训练时，论文特别设计了代码：文本：数学的数据混合比例，最终确定 70% 代码、20% 文本和 10% 数学数据的组合，使模型不仅在代码生成任务上表现优异，在通用自然语言处理任务和数学推理上也有较好的表现。一种可能的解释是，数学和文本数据可能会对代码性能产生积极贡献。

最终的训练数据集包含 5.2 万亿个令牌。
在这里插入图片描述

在这里插入图片描述

文件级预训练的目的是让模型从独立的代码文件中学习基本的代码模式、语法结构以及上下文信息。这一阶段的训练帮助模型在局部代码结构和上下文理解上打下坚实的基础。

repo 级预训练，旨在增强模型的长上下文能力。在此阶段，上下文长度从 8192 个 token 扩展到 32768 个 token。

数据：使用了约 3000 亿 tokens 的高质量、长代码数据，这些数据通常来自多个文件的代码库，具有较强的跨文件关联性和上下文依赖性。
训练细节：
- 最大序列长度：序列长度从 8192 tokens 扩展到 32768 tokens，使模型能够处理更长的上下文。
- RoPE（旋转位置编码）：为了处理超长序列，位置编码的基准频率从 10000 调整为 1000000，从而增强了模型对长上下文的感知能力。
- YARN 机制：采用了 YARN（Yet Another RoPE Network）机制，使模型能够进一步外推到长达 131072 tokens（即 132K tokens）的序列长度。这种机制扩展了模型的记忆能力，使其能够处理跨多个文件和复杂项目结构的代码任务。
- FIM 任务扩展：将文件级 FIM 任务扩展到了仓库级别的代码生成和补全。例如，在处理项目仓库时，模型的输入格式为：

指令微调的目的是将模型从通用代码生成转化为代码助手和编码代理，以更好地适应实际的编程任务和应用场景。

数据：指令微调使用了经过精心设计和处理的大规模指令数据集，包括来自真实世界应用的问题和解决方案，以及生成的合成数据。具体包括以下几类数据：
- 来自 GitHub 等代码平台的真实代码片段和相应的指令。
- LLM（大语言模型）生成的指令和代码对，这些生成数据经过模型评分器的筛选，以确保数据质量。
- 多语言编程数据，为模型提供多编程语言的指令样本，增强其跨语言的通用性。
训练细节：
- 多阶段微调：指令微调采用粗到细的两阶段策略：
  - 第一阶段：使用数千万条质量较低但多样性较高的指令样本对基础模型进行微调。
  - 第二阶段：采用高质量指令样本进行精细微调，通过拒绝采样（Rejection Sampling）和监督微调（Supervised Fine-Tuning）提升模型性能。对于同一个查询，模型会生成多个候选答案，然后由模型评分器挑选出最优答案用于微调。
- 混合微调：考虑到大多数指令数据长度较短，团队通过 FIM 格式构建长上下文指令对，以保留模型处理长上下文的能力。核心目的是在提升模型短指令任务能力的同时，确保其对长上下文的处理能力不被削弱。例如，模型会基于代码的抽象语法树（AST）提取代码逻辑块进行填充，从而进一步提升其代码推理和生成能力。