LLaMa3.1 模型训练四十问

最新推荐文章于 2024-10-04 22:36:54 发布

喝不喝奶茶丫

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量957

点赞数 23

文章标签：人工智能大数据大模型语言模型大模型应用 Llama Llama3.1

本文链接：https://blog.csdn.net/2401_85377976/article/details/140986769

版权

\1. Q: LLaMa3.1上下文窗口多大？

A: 128K Token；标准预训练阶段8K Token；长上下文调整预训练阶段 128K Token（提升16倍）；

2. Q: LLaMa3.1 Token编码方式？

A: BPE + RoPE(500,000)

3. Q: LLaMa3.1 语料库词库大小？

A: 15T 语料库（LLaMa2 只有1.8T）

4. Q: LLaMa3.1 最大模型参数量？

A: 405B

5. Q: LLaMa3.1 包含哪几种多媒体的模态

A: 图像、语音、视频

6. Q: 语料去重做了哪些工作？

A: URL去重，文档去重，行/句子去重。

7. Q: 语料去重用了哪些算法？

A: URL去重：最新页面URL链接

文档去重：MinHash算法

行句子去重：ccNet（3000万文档桶中出现6次）

8. Q: 语料清洗做了哪些工作?

A: 去重，个人身份信息(PII)过滤，成人内容过滤，文本提取，质量分类，语言分类

9. Q: 语料清洗用了哪些算法？

A: 过滤：重复N-Gram覆盖率，敏感词过滤， KL散度近似语料过滤

文本提取：图片Alt属性提取， HTML Alt数学公式提取，代码内容提取

质量分类：fasttext, wiki引用识别，Roberta分类， LLaMa2分类， DistilRoberta分类

语言分类：LLaMa2分类

10. Q: 高质量语料数据增强方式？

A: 知识分类重采样（最终实现各任务知识分类比例偏差较小）

数据混配（最终实现 50%的通识文本 Token， 25%的数学和推理 Token， 17%的编码Token， 8%的多语种Token。）

公式代码退火（最终实现对标OpenAI的在标准测试集上的效果）

11. Q: *高质量语料数据增强的算法？*

A: 知识分类重采样：基于任务的文本标记，基于标记重采样文本（例如，降采样艺术，娱乐分类文本的比例）

数据混配：应用Scaling Law，采样数据集上做大量实验，推测大数据集效果，然后选定配比，再进行关键基准测试集效果评定。

公式代码退火：

12. Q: LLaMa3.1激活函数选择

A: SwiGLU，

13. Q: *LLaMa3.1模型大小是如何定的？*

A: 根据Scaling law， 1）先定计算预算：6×10^18 FLOPs到10^22 FLOPs。 2）选择40M到16B参数进行预训练，确定IsoFLOPs曲线，推算Validation Loss目标。3）固定2000步训练之后，执行Cosine学习率调度调整。4）拟合ISOLoss Contours, 或者固定Loss拟合计算效率。

5）根据(α, A) = (0 . 53 , 0 . 29)， 16.55T tokens， 3.8×10^25 FLOPs的算力预算下，最佳参数大小为 402B。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

14. Q: *LLaMa3.1学习率调度调整用了什么策略*？

A: 用了Consine学习率调度策略，余弦衰减设置为峰值的0.1，

15. Q: *LLaMa3.1用了多少GPU？*

A: 16K的H100 GPU上进⾏训练(能耗 700W TDP，内存80GB HBM3)。

16. Q: *LLaMa3.1训练硬件平台是什么？*

A: 服务器 Grand Teton AI服务器平台（8个GPU，2个CPU）

17. Q: *LLaMa3.1训练软件平台式什么？*

A: MAST平台（ML Application Scheduler on Twine）, 主要围绕着提升GPU占用率，以及满足一定按时间分割的特性做了调度优化。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

18. Q: LLaMa3.1训练语料的存储平台是什么？

A: 自研的Tectonic文件系统。相比于Google File System， Tectonic在3个方面做了增强。 1）层次化的Key-Value的元数据组织（Name-File-Block），提升了水平扩展的能力。 2）无状态以来元数据组织，分离了元数据存储于计算。通过Metadata的一致性进而保障事务一致性，而不是Chunk Store的一致性。3）通过 erasure coding 来保证分布存储的一致性，而不是拷贝3份。使得存储降低到1.5倍原数据大小。

19. Q: LLaMa3.1训练平台的网络配置？

A: 使用了RDMA over Converged Ethernet(RoCE)⽹络，基于Arista7800和Minipack2开放计算项⽬OCP机架交换机。因为小模型的训练更为频繁（Scaling Law拟合），因此小模型训练上也使用了Nvidia Quantum2 Infiniband⽹络。

20. Q: *LLaMa3.1 RoCE网络架构是怎么配置的？*

A: 拓扑架构：三层Clos⽹络连接

底层：1个机架 - 两台服务器 - 16个GPU - 单个Minipack2机架顶部(ToR)交换机。

中层：1个POD - 192个机架 - (16x192) 3,072个GPU - 双⼯带宽集群交换机连接。

顶层: 一个数据中心的8个中层 - 16 x 192 x 8 = 24,576 （24K GPU） - 聚合交换机连接，非双工带宽，保持1:7的过订⽐率。

负载均衡：增强的ECMP（E-ECMP）协议（RoCE数据包头部的额外字段上进⾏哈希处理）。

拥塞控制 : 1) 主⼲⽹上使⽤了深度缓冲交换机 2) 增强的ECMP（E-ECMP）协议, 添加HASH控制后，提升ECMP分配均衡性。

21. Q: 模型训练的并行性与效果？

A: 4D并⾏性，包括张量并行TP，模型垂直划分的流⽔线并行PP，上下⽂并行（减少了⾮常⻓的序列⻓度输⼊的内存瓶颈）CP，完全分⽚的数据并行）DP。采用Fully Sharded Data Parallel(FSDP)对优化器状态和梯度进⾏分⽚。参考大模型训练入门【二】。

GPU利用率比Open AI早期30%的利用率大幅度提升， 16KGPU上DP=128， MFU = 41%；8K GPU上DP=64时 MFU = 43% (MFU:

BF16模型FLOPs 利⽤率)

22. Q: LLaMa3.1的Transformer架构的修改？

A: 使用了分组查询注意⼒Grouped-query attention (GQA), 平衡了权重灵活(MHA)与内存占用和推理效率(MQA)。

23. Q: 大模型训练中常见问题？

A: 78%的训练中断，最终归结为硬件问题。而且GPU相关错误就占60%左右。而且这种错误往往是难以避免的，譬如数据中⼼的功耗瞬间波动数⼗兆⽡，电⽹的极限，甚至温度影响GPU动态电压和频率缩放等等，并且很难监测。

因此如何有效识别硬件问题，并且尽快发现调查少数⼏个头号嫌疑对象非常重要。

因此，运行54天中断了466次，平均每天中断9次，自动化应对训练中断是必须的，而且是运维首位工作！

例如：GPU报错， HBM3报错，网络错误， GPU SRAM内存报错。

因此，基于GPU的 Collective Communication Library (NCCL)来优化Fully Sharded Data Parallel等GPU并行就非常必要。

24. Q:LLaMa3.1的训练，除了Pytorch，还有用了FairScale么？

A: FairScale是Meta自己搞得和DeepSpeed, Composer一样的规模并行训练的框架。但在技术说明文档里面，完全没有提到。不过从源码

https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/api/model.py

可以看到模型的并行基座依然是基于fairscale. 因此，LLaMa 3.1 kend

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以看到核心的数据并行， Pytorch FSDP框架Meta也花了大力气实验了，不清楚最终用的是Pytorch FSDP，还是Fairscale的FSDP。

参考：PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

25. Q: 大模型微调是怎么做的？

A: 微调主要基于奖励网络, SFT 和DPO学习对齐。然后这个后训练阶段会重复多轮, LLaMa 3.1重复了6轮。

26. Q: LLaMa3.1后训练数据？

A: 因为是基于RLHF，因此重要的是定义交互标记协议。 LLaMa3.1定义了一种多消息聊天协议，使⽤各种特殊的头部和终⽌标记。头部标记⽤于指⽰对话中每条消息的来源和⽬的地。同样，终⽌标记指⽰何时在⼈类和AI之间交替发⾔。

27. Q: *LLaMa3.1奖励模型的训练数据？*

A: 步骤一：通过交互式反馈得到数据1：被拒绝的回复。和数据2：被选择的数据。再在数据2的基础上，进一步人工编辑改进最佳答案得到数据3：编辑过的。

步骤二：通过混配提示词和多个回复，进一步提升训练效率，但不会降低准确度。

28. Q: *LLaMa3.1的微调进行了几轮？*

A: 经过6轮的微调迭代，每次迭代中都会通过人类反馈收集新的训练数据。

29. Q: 有监督微调SFT数据用了什么？

A: 一共使用了近2千万的SFT案例，其中一半以上是英文的问答。逻辑推理占1/5，代码占不到 1/6。

30. Q: SFD过程中用了什么强化学习算法？

A: 使用了直接偏好优化（Direct Preference Optimization, DPO）算法，没有使用PPO算法。DPO对于⼤规模模型需要的计算量更少，并且表现更好。

31. Q: *LLaMa3.1对DPO算法做了哪些改进？*

A: 传统的DPO算法，对于起始终止等标记Token的存在会引起意外的模型行为。同时编辑，选择，拒绝等样本比例的变化，对选择的部分，添加正则化，提升训练的稳定性。

\1. DPO损失中屏蔽格式标记

\2. 通过NLL损失进⾏正则化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

32. Q: 为什么LLaMa3.1的训练流程与RLHF流程不太一致？

A: 随着大模型的迭代发展，人们获得偏序反馈的方式效率大幅度提升。同时为了进一步提升硬件GPU的利用率，需要加速后训练流程。因此诞生了很多reinforcement learning from human feedback，RLHF框架的变种。

\1. 使用其他大模型替代人的反馈。 reinforcement learning from AI feedback (RLAIF)

\2. 抛弃强化学习进行直接有监督偏序学习， Rank Responses from Teacher Feedback，RRTF

LLaMa3.1巧妙的分离了Reward Model, 并且针对多模态的场景训练了多个Reward Model来生成评价结果。在基于评价结果进行采样，排序，训练的框架。

当然，也有人会考虑Sampling和Reward Model整合的方式。

**33. Q: **LLaMa3.1为什么要用****Rejection Sampling？

A: 低成本的获得大模型整体回复Token的分布概率，一般认为SFT直接训练对于整体进一步提升任务级别的分布成本太高，如何在关键任务域上对齐，现在大致有两种思路：

1） Reward方式以小博大，具有宽度层面优势。

2） Reject Sampling方式，以点带面，具有高度层面优势。

因此，在现在的大模型对齐学习中，越来越多的把采样方法和奖励模型融合起来了。

34. Q: LLaMa3.1使用了哪些内存优化算法？

A: 其实LLaMa3.1为了提效，的确做了很多工作。例如：4D并行， GQA取代MHA 等等。但是在内存上，有FlashAttention，PageAttention等优化工作。在报告里面，仅仅提到了PageAttention。

PageAttention使用分页技术高效管理KV缓存, 有时，KV缓存会为了应对最大可能的输入，输入的大小未知。使得可连续分配的空间，而且通常大部分remains未使用，导致内存浪费或碎片化。这个预留空间在请求的整个生命周期内都被占用。为了解决这个碎片化， PagedAttention受操作系统中分页技术的启发，允许在内存中的非连续空间存储连续的键和值。它将每个请求的KV缓存分割成代表固定数量token的块，这些块可以非连续存储。在注意力计算过程中，这些块根据需要被获取，使用一个块表来进行记录。随着新token的生成，会分配新的块。这些块的大小是固定的，消除了由不同请求需要不同分配等挑战带来的低效问题。这显著限制了内存浪费，使得更大的批处理大小（从而提高吞吐量）成为可能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

35. Q: LLaMa3.1做什么 quantization量化的推理加速？

A: FP8 quantization量化的推理加速。 405B的模型的量化可能会降低推理质量。因此做了一些quantization量化限制。

1）不在第⼀层和最后⼀层Transformer层中进⾏量化。

2）日期类等High-perplexity token的量化可能会引入编码错误，因此调整dynamic scaling factors动态缩放因⼦上界限制为1200。

3）利用⾏量化(Token量化和权重通道量化)替代张量量化，好处是为了不同的Token可以配置不同的Scaling Factor。

36. Q: LLaMa3.1基于的Clos网络还能改进么？

A: Meta和MIT在测试新的“rail optimized, any-to-any networks”的网络架构。参考Optimized Network Architectures for Training Large Language Models With Billions of Parameters。但是，这些改进未被LLaMa3.1采用。

**
**

37. Q: LLaMa3.1的多模态是否采用了MoE架构？

A: LLaMa3.1权衡训练推理效率和模型稳定性⽅⾯，没有采用MoE架构，而是使用了Dense架构（Image+Video:Cross Attention, Speech: Token Embedding）。

\1. 图像和视频通过Image Encoder进行编码。

\2. 图像和视频分开进行表示学习，视频通过Video Aggregator进行集成。

\3. 语音通过Speech Encoder进行独立编码，然后转化语音Token。

推理架构，提供单独的语音生成通道。

38. Q: 图像视频处理与语音处理有什么异同点？

A: 1. 多模态集成方式想通：图像，视频，语音都是通过单独的Encoder集成的，属于Compositional Adapter的组合方式

\2. 预训练的方式不同：但是图像是通过Image-Text Pairs和Video-Text Pairs进行预训练的，但是语音是通过self-supervised approach来重建masked input token的方式进行预训练的。并且图像和视频有独立的退火Annealing步骤，但是语音没有。

39. Q: LLaMa3.1的语音编码和合成分布用的什么模型？

A: 编码用的是Conformer编码器，预训练阶段用的BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer)算法。相比Wav2Vec算法， BEST-RQ要使用Conformer编码器，而不能用Transformer， BEST-RQ最终效果要优于Wav2Vec，当然最重要的是BEST-RQ基于RPQ，收敛速度大幅度提升！

合成用的是基于Transformer的韵律Prosody模型。

40. Q: 大模型训练平台配置有没有参考资料？

A: 可以参考《Machine Learning Engineering Open Book》，https://github.com/stas00/ml-engineering。该书比较系统的介绍了，计算，存储，网络，训练方面的配置操作。结合LLaMa3.1的技术手册来整合一起看，非常值得学习。

具体到里面涉及的改进点，除了上面的存储，计算，网络三方面的运维平台之外，还可以参考GenZ模型框架，希望量化的目标。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述