LLama3.1模型开源解读

最新推荐文章于 2024-08-24 09:47:09 发布

人工智能-猫猫

最新推荐文章于 2024-08-24 09:47:09 发布

阅读量711

点赞数 27

文章标签：开源人工智能自然语言处理深度学习 AIGC

本文链接：https://blog.csdn.net/lvaolan8888/article/details/140697513

版权

一、 模型结构方面

依然是使用的标准的、密集型的Transformer架构，和Llama2相比没什么滑头。一些细微的修改：

使用了GQA的attention，带8个key-value头来减少K-V cache的decoding负担。
使用attention mask来替代self-attention, 当两份不同的文档含有相同的文本序列时，对持续的训练长文本比较有效，且副作用小。
词汇表是128k tokens：100k token 来自tiktoken的分词器，28k额外的token来自其他非英语系语言。
增加了ROPE位置编码的基础频率超参数至500000. 这也增强了长上下文的理解能力。

二、训练的基础架构

计算：405B模型版本在16K H100 GPUs上，700w TDP，80G HBM3，使用了Meta’s Grand Teton AI 服务器平台。每台服务8块GPUs带2个CPU。8卡GPU 通过NVlink互联。

存储：240PB 存储，7500台带SSD的服务器，2 TB/s吞吐，峰值为7TB/s。挑战点在于模型中间状态的checkpoint文件的存储，以及故障恢复和debug。

网络：405B模型使用RDMA over RoCE。小版本的模型基于Nvidia Quantum2 Infiniband fabric来训练。无论是RoCE还是Infiniband集群都保证了GPU之间的互连速率达到400Gbps。

模型扩展的并行策略

为了尽可能训练最大的模型，使用了_4D_并行技术：TP、PP、DP、CP

(CP: context parallelism)

张量并行将各个权重张量分割成不同设备上的多个块。管道并行将模型垂直分层划分，使得不同的设备在完整模型管道的各个阶段可以并行处理不同的数据。上下文并行将输入的上下文分为多个段，减少长序列长度输入对内存的瓶颈。

使用了FSDP技术：fully sharded data parallelism技术将模型优化器、梯度计算结果和数据并行分布到多个GPU。

GPU utilization: 基于上表的配置，可以看到MFU在38%~43%之间。

PP过程中遇到的挑战：

Batch size限制：当前的实现对每个 GPU 支持的批次大小有限制，要求它能被管道级数整除。对于图 6 中的示例，深度优先管道并行性的调度（DFS）（Narayanan et al., 2021）要求 N = PP = 4，而广度优先调度（BFS；Lamy-Poirier (2023)）要求 N = M，其中 M 是总微批次的数量，N 是同一阶段的前向或反向连续微批次的数量。然而，预训练通常需要灵活调整批次大小。

内存资源使用不平衡：模型训练初始阶段embedding和warm-up对内存的需求较大，会导致内存资源的消耗极不平衡。

计算资源消耗不平衡： 在模型计算到最后一层，需要计算输出的loss，大量计算会导致延迟较高。

三、后训练

整体上LLama3的优化由RS（Reject Sampling）、SFT、DPO这三个核心模块组成，正好成为一个环状结构。每跑一次环算是一个周期，一共跑了六个周期实现了最优的效果。

每个周期的每个模型训练部分都依赖高质量的数据合成，对于大模型训练来讲，高质量数据和足够的算力绝对是最核心的因素。比如在做Coding能力SFT的时候，需要有专业的Code model生成高质量的数据，并且将生产的Code和Prompt组合成为训练数据。训练好之后进入DPO对齐环节，最终会由LLM作为判定（对应Reward model），如果效果不好，需要通过标注去不断优化DPO和Reward模型，从而使得整个训练流程可以向更优的方向发展。

另外还有一个模块是RS，RS大模型训练中经常用到的采样模式，目的是让训练样本更具多样性。拒绝采样的基本思想是利用一个辅助分布来生成样本，并按照一定的概率接受或拒绝样本。这个辅助分布通常是一个简单的分布，比如均匀分布或高斯分布。在拒绝采样中，接受样本的概率与目标分布的概率成比例。如果生成的样本符合目标分布，那么就接受这个样本；否则就拒绝这个样本，并重新生成一个新的样本。

总体而言：

Llama 3 的开发是建立在大量先前关于语言、图像、视频和语音的基础模型研究之上。讨论了其他基础模型的发展趋势，包括模型规模、小型模型、架构设计、开源模型训练过程和后训练策略。

另一方面，也表明高质量的基础模型的开发仍有巨大的改进空间。同时也强调了高质量数据、规模和简单性在模型开发中的重要性，并分享了开发过程中的各种技术问题和挑战。

开发像 Llama 3 这样的旗舰基础模型需要克服大量的深层技术难题问题还需要明智的组织决策。例如，确保 Llama 3 不会意外发生由于对常用基准的过度拟合，我们的预训练数据是由一个单独的团队获取和处理的这是为了防止预训练数据受到外部基准的污染。

详细论文参考：The Llama 3 Herd of Models | Research - AI at Meta

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

人工智能-猫猫

关注

27
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
LLama3.1模型开源解读

依然是使用的标准的、密集型的Transformer架构，和Llama2相比没什么滑头。一些细微的修改：使用了GQA的attention，带8个key-value头来减少K-V cache的decoding负担。使用attention mask来替代self-attention, 当两份不同的文档含有相同的文本序列时，对持续的训练长文本比较有效，且副作用小。词汇表是128k tokens：100k token 来自tiktoken的分词器，28k额外的token来自其他非英语系语言。
复制链接

扫一扫