分布式-算法

本文探讨了大模型训练面临的内存管理、通信效率挑战,以及当前最先进的自监督学习方法和大模型结构,如Flan-T5、XM3600等。重点介绍了Bert预训练、微调和最新的SOTA算法,如GPT3和SwitchTransformer。
摘要由CSDN通过智能技术生成

深度学习之分布式
本系列介绍用于大模型如何利用AI集群来进行分布式训练。
内容知识来源于网络知识,侵删。

  • 分布式集群
  • 分布式算法
  • 分布式并行


前言


一、大模型训练的挑战

  1. 内存墙
    静态内存:模型自身权重、优化器状态
    动态内存:前向输出、梯度输出、算子计算的临时变量、反向传播时逐渐释放的内存
  2. 通信墙
    片间通信、集群内通信
  3. 性能墙
    AI芯片、AI分布式框架的运行和调度效率、分布式并行的优化手段
  4. 调优墙
    保证计算正确性、性能、可行性、手工分布式的难度

二、大模型算法结构

自监督学习、精度更高、提供预训练
在这里插入图片描述

2022-10-25:Flan-T5:1800种语言任务大规模微调
2022-10-24:XM3600:36种语言图像描述
2022-10-24:闽南语翻译:3000种无文字语言

  1. Transfomer:取代RNN、CNN,大模型时代开启
    在这里插入图片描述

  2. MoE:稀疏混合专家结构

  3. Bert:突破10亿的NLP大模型

  4. GPT3:全新语言模型,1750亿参数

  5. Switch Transformer:首个突破万亿大模型

  6. GLaM:1.2万亿参数的通用稀疏语言模型

三、SOTA大模型算法

  1. Bert
    预训练+微调
    在这里插入图片描述

  2. GPT3
    无从考证

  3. Switch Transformer
    路由选择其中一个FFN作为专家
    在这里插入图片描述


参考文献:

b站 up主 ZOMI酱 :https://www.bilibili.com/video/BV1ge411L7mi/?spm_id_from=333.788&vd_source=071a6a156f5d29dbb9701c2bdbda3878

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值