InternLM 技术报告解读（一）- 训练框架，模型架构，数据处理

最新推荐文章于 2025-03-27 14:41:47 发布

有意思科技

最新推荐文章于 2025-03-27 14:41:47 发布

阅读量1.1k

点赞数 15

分类专栏：人工智能 AIGC 文章标签：人工智能 AIGC

本文链接：https://blog.csdn.net/qq_37755518/article/details/137168260

版权

人工智能同时被 2 个专栏收录

25 篇文章

订阅专栏

AIGC

20 篇文章

订阅专栏

本文详细介绍了大型语言模型的发展阶段，特别是预训练数据的处理方法，如InternLM2的工作。技术报告重点阐述了InternEvo训练框架、模型架构优化，以及文本、代码和长文本数据的处理流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大型语言模型的发展包括预训练、监督微调（SFT ）和基于人类反馈的强化学习（ RLHF ）

等主要阶段。

过去关于LLM 的技术报告很少关注预训练数据的处理。 InternLM2详细描述了如何为预训练准备文本、代码和长文本数据。

如何有效地延长LLM 的上下文长度目前是研究的热点，因为许多下游应用，如检索增强生成（RAG ）和代理模型，依赖于长上下文。

本次技术报告就详细的阐述关于数据处理，预训练以及微调模型的技术细节。

一. 训练框架以及模型架构

1.1 InternEvo

在开始之前，我们首先选择我们的训练框架，我们使用的高效的轻量级预训练框架InternEvo进行模型训练。这个框架使得我们能够在数千个 GPU 上扩展模型训练。它通过数据（ Data Parallelism ）、张量（ Tensor Parallelism, 2019 ）、序列（ Sequence Parallelism, 2023 ）和管道（ Pipeline Parallelism, 2019 ）并行技术来实现这一点。为了进一步提升 GPU 内存效率， InternEvo 整合了各种 Zero Redundancy Optimizer (ZeRO, 2020 )策略，显著减少了训练所需的内存占用。此外，为了提高硬件利用我们还引入了 FlashAttention 技术（ 2023 ）和混合精度训练（ Mixed Precision Training, 2017 ），使用 BF16。

InternEvo在序列长度方面也表现出强大的扩展性，支持训练不同规模的 LLM ，例如

在 256,000 个令牌的序列长度下训练 InternLM-7B ，可以达到接近 88% 的 MFU 。相比之

下， DeepSpeed-Ulysses 和 Megatron-LM 只能达到大约 65% 的 MFU 。对于更大规模的 LLM ，

如 300 亿或 700 亿参数的模型，训练性能的提升也同样明显。

1.2 模型架构

我们选择遵循 LLaMA 的结构设计原则。为了提高效率，我们将W k 、 W q 和 W v 矩阵合并，这在预训练阶段带来了超过 5% 的训练加速。此外，为了更好地支持多样化的张量并行（tp ）变换，我们重新配置了矩阵布局。对于每个头的 W k 、 W q 和 W v ，我们采用了交错的方式，如下图所示。

二. 训练数据集

2.1 文本数据

我们的预训练数据集中的文本数据可以根据来源分为网页、论文、专利和书籍。为了将这

些来源转化为预训练数据集，我们首先将所有数据标准化为特定格式，按类型和语言分类，

并以 JSON Lines (jsonl) 格式存储。然后，我们对所有数据应用一系列处理步骤，包括基于

规则的过滤、数据去重、安全过滤和质量过滤。这最终形成了丰富、安全且高质量的文本

数据集。

整个数据处理流程首先将来自不同来源的数据标准化，得到格式化数据（ Format data ）。接着，通过应用启发式统计规则进行数据筛选，获取清洗数据（ Clean data ）。然后，使用局部敏感哈希（ LSH ）方法进行数据去重，得到去重数据（ Dedup data ）。随后，我们采用复合安全策略过滤数据，得到安全数据（ Safe data ）。针对不同来源的数据，我们采用了不同的质量过滤策略，最终获得高质量预训练数据（ High-quality pre-training data ）