大模型 | LLM预训练和后训练新范式(二)苹果的苹果智能基础语言模型 (AFM)

2. 苹果的苹果智能基础语言模型 (AFM)

文章地址:https://arxiv.org/abs/2407.21075

我非常高兴在 arXiv.org 上看到苹果发布的另一篇技术论文,概述了他们的模型训练。这是一个意想不到但绝对积极的惊喜!

2.1 AFM 概述

在苹果智能基础语言模型一文中,研究团队概述了旨在“苹果智能”环境中在苹果设备上使用的两个主要模型的开发。为了简洁起见,在本节中这些模型将被简称为 AFM,即“Apple Foundation Models”。

具体来说,论文描述了 AFM 的两个版本:一个用于在手机、平板电脑或笔记本电脑上部署的30亿参数的设备模型,以及一个更强大的30亿参数的服务器模型。

这些模型是为聊天、数学和编码任务开发的,尽管论文没有讨论任何与编码相关的特定训练和能力。

与 Qwen 2 类似,AFM 是密集的 LLMs,并没有使用专家混合方法。

2.2 AFM 预训练

我要向研究人员表示两点大的赞赏。首先,除了使用公开可用的数据和出版商授权的数据,他们还尊重网站上的 robots.txt 文件,并且没有爬取这些网站。其次,他们还提到使用基准数据进行了去污染。

为了强调 Qwen 2 论文中的一个要点,研究人员提到质量比数量更重要。(设备模型的词汇量为49k个词元,服务器模型的词汇量为100k个词元,明显小于 Qwen 2 模型使用的150k个词元词汇量。)

有趣的是,预训练不是在2个阶段而是在3个阶段完成的!

  1. 核心(常规)预训练

  2. 持续预训练,其中网络抓取(质量较低)数据的权重被降低;数学和代码的权重被提高

  3. 使用较长序列数据和合成数据进行上下文扩展

AFM 模型经历的三步预训练过程概述。

让我们更详细地看看这三个步骤。

2.2.1 预训练 I: 核心预训练

核心预训练描述了苹果预训练流水线中的第一个预训练阶段。这类似于常规预训练,其中AFM服务器模型在6.3万亿个标记、4096个批次大小和4096个标记序列长度上进行训练。这与Qwen 2模型非常相似,后者在7万亿个标记上进行训练。

然而,AFM设备上的模型更有趣,它是从一个更大的64亿参数模型中蒸馏和修剪而来的(从头开始训练,就像前面描述的AFM服务器模型一样。请注意,AFM服务器和AFM设备都是30亿参数模型。)

关于蒸馏过程的细节不多,除了"通过将目标标签替换为真实标签和教师模型的top-1预测的凸组合(以0.9的权重分配给教师标签)来使用蒸馏损失。"

我觉得知识蒸馏在LLM预训练中越来越普遍和有用(Gemma-2也使用它)。我计划有一天更详细地介绍它。目前,这里是对该过程在高级别上如何工作的简要概述。

知识蒸馏概述,其中一个小模型(这里是AFM设备3B模型)在原始训练标记加上来自更大教师模型(这里是64亿模型)的输出上进行训练。请注意,a)中的交叉熵损失是用于预训练LLM的常规训练损失

知识蒸馏,如上所述,仍然涉及在原始数据集上进行训练。然而,除了数据集中的训练标记外,被训练的模型(称为学生)还从较大的(教师)模型接收信息,与没有知识蒸馏的训练相比,提供了更丰富的信号。不利的一面是,你必须:1)首先训练较大的教师模型,2)使用较大的教师模型计算所有训练标记的预测。这些预测可以提前计算(这需要大量的存储空间)或在训练过程中计算(这可能会减慢训练过程)。

2.2.2 预训练 II: 持续预训练

持续预训练阶段包括一个小的上下文扩展步骤,从4,096个标记延长到8,192个标记,数据集由1万亿个标记组成(核心预训练集大五倍)。然而,主要重点是使用高质量的数据混合进行训练,重点是数学和代码。

有趣的是,研究人员发现蒸馏损失在这种情况下并没有带来好处。

2.2.3 预训练 III: 上下文扩展

第三个预训练阶段仅涉及1000亿个标记(第二阶段标记的10%),但代表更显著的上下文扩展到32,768个标记。为了实现这一目标,研究人员用合成的长上下文问答数据扩充了数据集。

AFM预训练技术总结。

2.3 AFM 训练后阶段

苹果似乎在训练后阶段采取了与训练前同样全面的方法。他们利用了人工标注和合成数据,强调数据质量优先于数量。有趣的是,他们没有依赖预定的数据比例,而是通过多次实验微调数据混合以达到最佳平衡。

训练后阶段涉及两个步骤:监督指令微调,随后是多轮有真人反馈的强化学习(RLHF)。

这个过程中一个特别值得注意的方面是苹果在RLHF阶段引入了两个新算法:

  1. 拒绝采样教师委员会微调 (iTeC)
  2. 基于镜像下降的RLHF策略优化

鉴于本文篇幅所限,不会详细讨论这些方法的技术细节,但这里有一个简要概述:

iTeC算法结合了拒绝采样和多种偏好微调技术——具体来说是SFT、DPO、IPO和在线RL。苹果没有依赖单一算法,而是独立地使用每种方法训练模型。这些模型随后生成响应,由人类评估并提供偏好标签。这些偏好数据用于在RLHF框架中迭代训练奖励模型。在拒绝采样阶段,一个模型委员会生成多个响应,由奖励模型选择最佳响应。

这种基于委员会的方法相当复杂,但应该是相对可行的,尤其是考虑到所涉及的模型相对较小(约30亿参数)。如果用更大的模型,如Llama 3.1中的70B或405B参数模型,实施这样的委员会肯定会更具挑战性。

至于第二个算法,基于镜像下降的RLHF,它被选择是因为它比常用的PPO(近端策略优化)更有效。

AFM训练后阶段技术总结。

2.4 结论

苹果在预训练和后训练方面的方法相对全面,这可能是因为风险非常高(模型部署在数百万甚至数十亿台设备上)。然而,鉴于这些模型的规模较小,各种技术也变得可行,因为一个3B模型的大小不到最小的Llama 3.1模型的一半。

其中一个亮点是,它不是在RLHF和DPO之间的简单选择;相反,他们以委员会的形式使用了多种偏好调优算法。

有趣的是,他们明确使用了问答数据作为预训练的一部分——这是我在上一篇文章指令预训练LLMs中讨论过的。

总的来说,这是一个令人耳目一新且令人愉快的技术报告。


最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试,不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费


如有侵权,请联系删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值