大模型 | LLM预训练和后训练新范式（二）苹果的苹果智能基础语言模型 (AFM)

AI老猴子

已于 2024-09-12 11:53:50 修改

阅读量1.1k

点赞数 22

文章标签：语言模型人工智能自然语言处理大模型 AI AFM 预训练

于 2024-09-06 11:02:50 首次发布

本文链接：https://blog.csdn.net/star_nwe/article/details/141954329

版权

2. 苹果的苹果智能基础语言模型 (AFM)

文章地址：https://arxiv.org/abs/2407.21075

我非常高兴在 arXiv.org 上看到苹果发布的另一篇技术论文，概述了他们的模型训练。这是一个意想不到但绝对积极的惊喜！

2.1 AFM 概述

在苹果智能基础语言模型一文中，研究团队概述了旨在“苹果智能”环境中在苹果设备上使用的两个主要模型的开发。为了简洁起见，在本节中这些模型将被简称为 AFM，即“Apple Foundation Models”。

具体来说，论文描述了 AFM 的两个版本：一个用于在手机、平板电脑或笔记本电脑上部署的30亿参数的设备模型，以及一个更强大的30亿参数的服务器模型。

这些模型是为聊天、数学和编码任务开发的，尽管论文没有讨论任何与编码相关的特定训练和能力。

与 Qwen 2 类似，AFM 是密集的 LLMs，并没有使用专家混合方法。

2.2 AFM 预训练

我要向研究人员表示两点大的赞赏。首先，除了使用公开可用的数据和出版商授权的数据，他们还尊重网站上的 robots.txt 文件，并且没有爬取这些网站。其次，他们还提到使用基准数据进行了去污染。

为了强调 Qwen 2 论文中的一个要点，研究人员提到质量比数量更重要。（设备模型的词汇量为49k个词元，服务器模型的词汇量为100k个词元，明显小于 Qwen 2 模型使用的150k个词元词汇量。）

有趣的是，预训练不是在2个阶段而是在3个阶段完成的！

核心（常规）预训练
持续预训练，其中网络抓取（质量较低）数据的权重被降低；数学和代码的权重被提高
使用较长序列数据和合成数据进行上下文扩展

AFM 模型经历的三步预训练过程概述。

让我们更详细地看看这三个步骤。

2.2.1 预训练 I: 核心预训练

核心预训练描述了苹果预训练流水线中的第一个预训练阶段。这类似于常规预训练，其中AFM服务器模型在6.3万亿个标记、4096个批次大小和4096个标记序列长度上进行训练。这与Qwen 2模型非常相似，后者在7万亿个标记上进行训练。

然而，AFM设备上的模型更有趣，它是从一个更大的64亿参数模型中蒸馏和修剪而来的（从头开始训练，就像前面描述的AFM服务器模型一样。请注意，AFM服务器和AFM设备都是30亿参数模型。）

关于蒸馏过程的细节不多，除了"通过将目标标签替换为真实标签和教师模型的top-1预测的凸组合（以0.9的权重分配给教师标签）来使用蒸馏损失。"

我觉得知识蒸馏在LLM预训练中越来越普遍和有用（Gemma-2也使用它）。我计划有一天更详细地介绍它。目前，这里是对该过程在高级别上如何工作的简要概述。

知识蒸馏概述，其中一个小模型（这里是AFM设备3B模型）在原始训练标记加上来自更大教师模型（这里是64亿模型）的输出上进行训练。请注意，a）中的交叉熵损失是用于预训练LLM的常规训练损失

知识蒸馏，如上所述，仍然涉及在原始数据集上进行训练。然而，除了数据集中的训练标记外，被训练的模型（称为学生）还从较大的（教师）模型接收信息，与没有知识蒸馏的训练相比，提供了更丰富的信号。不利的一面是，你必须：1）首先训练较大的教师模型，2）使用较大的教师模型计算所有训练标记的预测。这些预测可以提前计算（这需要大量的存储空间）或在训练过程中计算（这可能会减慢训练过程）。

2.2.2 预训练 II: 持续预训练

持续预训练阶段包括一个小的上下文扩展步骤，从4,096个标记延长到8,192个标记，数据集由1万亿个标记组成（核心预训练集大五倍）。然而，主要重点是使用高质量的数据混合进行训练，重点是数学和代码。

有趣的是，研究人员发现蒸馏损失在这种情况下并没有带来好处。

2.2.3 预训练 III: 上下文扩展

第三个预训练阶段仅涉及1000亿个标记（第二阶段标记的10%），但代表更显著的上下文扩展到32,768个标记。为了实现这一目标，研究人员用合成的长上下文问答数据扩充了数据集。

AFM预训练技术总结。

2.3 AFM 训练后阶段

苹果似乎在训练后阶段采取了与训练前同样全面的方法。他们利用了人工标注和合成数据，强调数据质量优先于数量。有趣的是，他们没有依赖预定的数据比例，而是通过多次实验微调数据混合以达到最佳平衡。

训练后阶段涉及两个步骤：监督指令微调，随后是多轮有真人反馈的强化学习（RLHF）。

这个过程中一个特别值得注意的方面是苹果在RLHF阶段引入了两个新算法：

拒绝采样教师委员会微调 (iTeC)
基于镜像下降的RLHF策略优化

鉴于本文篇幅所限，不会详细讨论这些方法的技术细节，但这里有一个简要概述：

iTeC算法结合了拒绝采样和多种偏好微调技术——具体来说是SFT、DPO、IPO和在线RL。苹果没有依赖单一算法，而是独立地使用每种方法训练模型。这些模型随后生成响应，由人类评估并提供偏好标签。这些偏好数据用于在RLHF框架中迭代训练奖励模型。在拒绝采样阶段，一个模型委员会生成多个响应，由奖励模型选择最佳响应。

这种基于委员会的方法相当复杂，但应该是相对可行的，尤其是考虑到所涉及的模型相对较小（约30亿参数）。如果用更大的模型，如Llama 3.1中的70B或405B参数模型，实施这样的委员会肯定会更具挑战性。

至于第二个算法，基于镜像下降的RLHF，它被选择是因为它比常用的PPO（近端策略优化）更有效。

AFM训练后阶段技术总结。