大模型 | LLM预训练和后训练新范式(一)阿里巴巴的 Qwen 2

大型语言模型(LLM)的发展已经取得了长足的进步,从早期的GPT模型到我们今天拥有的复杂的开放权重LLM。最初,LLM的训练过程仅集中于预训练,但后来扩展到包括预训练和后训练。后训练通常包括监督指令微调和对齐,这些是由ChatGPT普及的。

自ChatGPT首次发布以来,训练方法已经发生了变化。在本文中,我回顾了最近几个月在预训练和后训练方法论方面的最新进展。

本文讨论的新预训练和后训练方法论,概述了LLM开发和训练流程

每个月都有数百篇LLM论文提出新技术和方法。然而,实际上验证什么方法有效的最佳途径之一是查看最新最先进模型的预训练和后训练流程。幸运的是,在过去的几个月里,有四个主要的新LLM发布,并附有相对详细的技术报告。

在本文中,将重点介绍以下模型的预训练和后训练流程:

  1. 阿里巴巴的 Qwen 2

  2. 苹果智能基础语言模型

  3. 谷歌的 Gemma 2

  4. Meta AI 的 Llama 3.1

这些模型是根据各自技术论文在 arXiv.org 上的发表日期顺序排列的,恰好也与它们的字母顺序一致。

1. 阿里巴巴的 Qwen 2

首先介绍一下 Qwen 2,这是一个非常强大的LLM模型系列,与其他主要的LLM竞争。然而,由于某些原因,它比Meta AI、微软和谷歌的开放权重模型少受欢迎。

1.1 Qwen 2 概述

在查看 Qwen 2 技术报告中讨论的预训练和后训练方法之前,我们先简要总结一些核心规格。

Qwen 2 模型有5种类型。有4个常规(密集)LLM,参数量分别为5亿、15亿、70亿和720亿。此外,还有一个57亿参数的专家混合模型,其中有14亿参数同时被激活。(由于架构细节不是这次的重点,我不会深入讨论专家混合模型;简而言之,这类似于Mistral AI的Mixtral,只是它有更多的活跃专家。高级概述请参见我的 模型合并、专家混合和迈向更小的LLM文章 中的 Mixtral 架构 部分。)

Qwen 2 LLM的一个突出特点是其在30种语言中的良好多语言能力。它们还拥有惊人的151,642个词汇量(作为参考,Llama 2使用32k词汇量,Llama 3.1使用128k词汇量);根据经验,词汇量增加2倍会减少输入词数2倍,因此LLM可以在同一输入中容纳更多词。它特别有助于多语言数据和编码,以覆盖标准英语词汇之外的词语。

下面是与其他LLM的简要MMLU基准测试比较。(请注意,MMLU是一个多项选择的基准测试,因此有其局限性;然而,它仍然是报告LLM性能的最流行方法之一。)

最新开放权重模型的MMLU基准测试得分(值越高越好)。我从每个模型的官方研究论文中收集了这些得分用于此图表。

1.2 Qwen 2 预训练

Qwen 2团队在7万亿训练数据上训练了15亿、70亿和720亿参数模型,这是一个合理的规模。作为比较,Llama 2模型在2万亿数据上训练,而Llama 3.1模型在15万亿数据上训练。

有趣的是,5亿参数模型是在12万亿数据上训练的。然而,研究人员并没有在更大的12万亿数据集上训练其他模型,因为他们在训练过程中没有观察到任何改进,并且额外的计算成本也不合理。

重点之一是改进数据过滤流程,以去除低质量数据,并增强数据混合以增加数据多样性——这是我们在稍后检查其他模型时将重新讨论的主题。

有趣的是,他们还使用了Qwen模型(尽管他们没有具体说明,但我认为他们指的是上一代的Qwen模型)来合成额外的预训练数据。预训练还涉及“多任务指令数据……以增强上下文学习和指令遵循能力”。

此外,他们进行了两个阶段的训练:常规预训练和长上下文训练。后者在预训练结束阶段将上下文长度从4,096个数据增加到32,768个数据,使用的是“高质量、长篇数据”。

Qwen 2预训练技术总结。“持续预训练”是指两阶段预训练,即研究人员从常规预训练开始,然后进行长上下文持续预训练。

(不幸的是,技术报告的另一个主题是关于数据集的详细信息很少,因此如果我的报告看起来不太详细,这是由于缺乏公开可用的信息。)

1.3 Qwen 2 后训练

Qwen 2 团队采用了流行的两阶段后训练方法,首先是监督指令微调(SFT),在 500,000 个示例上进行了 2 个周期。此阶段旨在提高模型在预定场景中的响应准确性。

一个典型的 LLM 开发流程。

在SFT之后,他们使用直接偏好优化(DPO)来使LLM与人类偏好对齐。(有趣的是,在他们的术语中,这被称为来自人类反馈的强化学习,RLHF。)正如我几周前在《LLM预训练技巧和奖励模型评估》中讨论的那样,由于与其他方法(如使用PPO的RLHF)相比易于使用,SFT+DPO方法似乎是目前最受欢迎的偏好调优策略。(如果你想了解DPO的工作原理,我最近从头开始实现了它。)

对齐阶段本身也分为两个阶段。首先在现有数据集上使用DPO(离线阶段)。其次,使用奖励模型形成偏好对(在线)。在这里,模型在训练期间生成多个响应,奖励模型在“实时”优化步骤中选择首选响应(也就是说,在训练期间)。这也常被称为“拒绝采样”。

在数据集构建方面,他们使用了现有语料库并辅以人为标注,以确定SFT的目标响应并识别对DPO至关重要的首选和被拒绝的响应。研究人员还合成了人工注释的数据。

此外,团队使用LLM生成专门为“高质量文学数据”量身定制的指令-响应对,以创建高质量的问答对进行训练。

Qwen 2 训练后技术总结。

1.4 结论

Qwen 2 是一个相对有能力的模型,类似于早期的 Qwen 代。在 2023 年 12 月参加 NeurIPS LLM 效率挑战时,我记得大多数获胜的方法都涉及到 Qwen 模型。

关于 Qwen 2 的训练流程,突出的特点是合成数据被用于预训练和后训练。另外,专注于数据集的过滤(而不是尽可能多地收集数据)是 LLM 训练中的一个显著趋势。在这里,我会说,更多是更好,但前提是它符合某些质量标准。


最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试,不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费


如有侵权,请联系删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值