深度学习之分布式
本系列介绍用于大模型如何利用AI集群来进行分布式训练。
内容知识来源于网络知识,侵删。
- 分布式集群
- 分布式算法
- 分布式并行
前言
一、大模型训练的挑战
- 内存墙
静态内存:模型自身权重、优化器状态
动态内存:前向输出、梯度输出、算子计算的临时变量、反向传播时逐渐释放的内存 - 通信墙
片间通信、集群内通信 - 性能墙
AI芯片、AI分布式框架的运行和调度效率、分布式并行的优化手段 - 调优墙
保证计算正确性、性能、可行性、手工分布式的难度
二、大模型算法结构
自监督学习、精度更高、提供预训练
2022-10-25:Flan-T5:1800种语言任务大规模微调
2022-10-24:XM3600:36种语言图像描述
2022-10-24:闽南语翻译:3000种无文字语言
-
Transfomer:取代RNN、CNN,大模型时代开启
-
MoE:稀疏混合专家结构
-
Bert:突破10亿的NLP大模型
-
GPT3:全新语言模型,1750亿参数
-
Switch Transformer:首个突破万亿大模型
-
GLaM:1.2万亿参数的通用稀疏语言模型
三、SOTA大模型算法
-
Bert
预训练+微调
-
GPT3
无从考证 -
Switch Transformer
路由选择其中一个FFN作为专家
参考文献:
b站 up主 ZOMI酱 :https://www.bilibili.com/video/BV1ge411L7mi/?spm_id_from=333.788&vd_source=071a6a156f5d29dbb9701c2bdbda3878