大模型 | LLM预训练和后训练新范式（一）阿里巴巴的 Qwen 2

AI老猴子

已于 2024-09-12 11:54:35 修改

阅读量643

点赞数 22

文章标签：人工智能大模型 AI大模型 AI 大模型开发 LLM 预训练

于 2024-09-06 11:00:35 首次发布

本文链接：https://blog.csdn.net/star_nwe/article/details/141953913

版权

大型语言模型（LLM）的发展已经取得了长足的进步，从早期的GPT模型到我们今天拥有的复杂的开放权重LLM。最初，LLM的训练过程仅集中于预训练，但后来扩展到包括预训练和后训练。后训练通常包括监督指令微调和对齐，这些是由ChatGPT普及的。

自ChatGPT首次发布以来，训练方法已经发生了变化。在本文中，我回顾了最近几个月在预训练和后训练方法论方面的最新进展。

本文讨论的新预训练和后训练方法论，概述了LLM开发和训练流程

每个月都有数百篇LLM论文提出新技术和方法。然而，实际上验证什么方法有效的最佳途径之一是查看最新最先进模型的预训练和后训练流程。幸运的是，在过去的几个月里，有四个主要的新LLM发布，并附有相对详细的技术报告。

在本文中，将重点介绍以下模型的预训练和后训练流程：

阿里巴巴的 Qwen 2
苹果智能基础语言模型
谷歌的 Gemma 2
Meta AI 的 Llama 3.1

这些模型是根据各自技术论文在 arXiv.org 上的发表日期顺序排列的，恰好也与它们的字母顺序一致。

1. 阿里巴巴的 Qwen 2

首先介绍一下 Qwen 2，这是一个非常强大的LLM模型系列，与其他主要的LLM竞争。然而，由于某些原因，它比Meta AI、微软和谷歌的开放权重模型少受欢迎。

1.1 Qwen 2 概述

在查看 Qwen 2 技术报告中讨论的预训练和后训练方法之前，我们先简要总结一些核心规格。

Qwen 2 模型有5种类型。有4个常规（密集）LLM，参数量分别为5亿、15亿、70亿和720亿。此外，还有一个57亿参数的专家混合模型，其中有14亿参数同时被激活。（由于架构细节不是这次的重点，我不会深入讨论专家混合模型；简而言之，这类似于Mistral AI的Mixtral，只是它有更多的活跃专家。高级概述请参见我的模型合并、专家混合和迈向更小的LLM文章中的 Mixtral 架构部分。）

Qwen 2 LLM的一个突出特点是其在30种语言中的良好多语言能力。它们还拥有惊人的151,642个词汇量（作为参考，Llama 2使用32k词汇量，Llama 3.1使用128k词汇量）；根据经验，词汇量增加2倍会减少输入词数2倍，因此LLM可以在同一输入中容纳更多词。它特别有助于多语言数据和编码，以覆盖标准英语词汇之外的词语。

下面是与其他LLM的简要MMLU基准测试比较。（请注意，MMLU是一个多项选择的基准测试，因此有其局限性；然而，它仍然是报告LLM性能的最流行方法之一。）

最新开放权重模型的MMLU基准测试得分（值越高越好）。我从每个模型的官方研究论文中收集了这些得分用于此图表。

1.2 Qwen 2 预训练

Qwen 2团队在7万亿训练数据上训练了15亿、70亿和720亿参数模型，这是一个合理的规模。作为比较，Llama 2模型在2万亿数据上训练，而Llama 3.1模型在15万亿数据上训练。

有趣的是，5亿参数模型是在12万亿数据上训练的。然而，研究人员并没有在更大的12万亿数据集上训练其他模型，因为他们在训练过程中没有观察到任何改进，并且额外的计算成本也不合理。

重点之一是改进数据过滤流程，以去除低质量数据，并增强数据混合以增加数据多样性——这是我们在稍后检查其他模型时将重新讨论的主题。

有趣的是，他们还使用了Qwen模型（尽管他们没有具体说明，但我认为他们指的是上一代的Qwen模型）来合成额外的预训练数据。预训练还涉及“多任务指令数据……以增强上下文学习和指令遵循能力”。

此外，他们进行了两个阶段的训练：常规预训练和长上下文训练。后者在预训练结束阶段将上下文长度从4,096个数据增加到32,768个数据，使用的是“高质量、长篇数据”。

Qwen 2预训练技术总结。“持续预训练”是指两阶段预训练，即研究人员从常规预训练开始，然后进行长上下文持续预训练。

（不幸的是，技术报告的另一个主题是关于数据集的详细信息很少，因此如果我的报告看起来不太详细，这是由于缺乏公开可用的信息。）

1.3 Qwen 2 后训练

Qwen 2 团队采用了流行的两阶段后训练方法，首先是监督指令微调（SFT），在 500,000 个示例上进行了 2 个周期。此阶段旨在提高模型在预定场景中的响应准确性。

一个典型的 LLM 开发流程。

在SFT之后，他们使用直接偏好优化（DPO）来使LLM与人类偏好对齐。（有趣的是，在他们的术语中，这被称为来自人类反馈的强化学习，RLHF。）正如我几周前在《LLM预训练技巧和奖励模型评估》中讨论的那样，由于与其他方法（如使用PPO的RLHF）相比易于使用，SFT+DPO方法似乎是目前最受欢迎的偏好调优策略。（如果你想了解DPO的工作原理，我最近从头开始实现了它。）

对齐阶段本身也分为两个阶段。首先在现有数据集上使用DPO（离线阶段）。其次，使用奖励模型形成偏好对（在线）。在这里，模型在训练期间生成多个响应，奖励模型在“实时”优化步骤中选择首选响应（也就是说，在训练期间）。这也常被称为“拒绝采样”。

在数据集构建方面，他们使用了现有语料库并辅以人为标注，以确定SFT的目标响应并识别对DPO至关重要的首选和被拒绝的响应。研究人员还合成了人工注释的数据。

此外，团队使用LLM生成专门为“高质量文学数据”量身定制的指令-响应对，以创建高质量的问答对进行训练。

Qwen 2 训练后技术总结。