分布式-算法

saoqi_boy

已于 2023-09-03 10:01:52 修改

阅读量154

点赞数

分类专栏：分布式深度学习文章标签：人工智能深度学习

于 2023-09-03 09:58:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/saoqi_boy/article/details/132593753

版权

分布式深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文探讨了大模型训练面临的内存管理、通信效率挑战，以及当前最先进的自监督学习方法和大模型结构，如Flan-T5、XM3600等。重点介绍了Bert预训练、微调和最新的SOTA算法，如GPT3和SwitchTransformer。

摘要由CSDN通过智能技术生成

深度学习之分布式
本系列介绍用于大模型如何利用AI集群来进行分布式训练。
内容知识来源于网络知识，侵删。

分布式集群
分布式算法
分布式并行

分布式算法

前言
一、大模型训练的挑战
二、大模型算法结构
三、SOTA大模型算法
参考文献：

前言

一、大模型训练的挑战

内存墙
静态内存：模型自身权重、优化器状态
动态内存：前向输出、梯度输出、算子计算的临时变量、反向传播时逐渐释放的内存
通信墙
片间通信、集群内通信
性能墙
AI芯片、AI分布式框架的运行和调度效率、分布式并行的优化手段
调优墙
保证计算正确性、性能、可行性、手工分布式的难度

二、大模型算法结构

自监督学习、精度更高、提供预训练
在这里插入图片描述

2022-10-25：Flan-T5：1800种语言任务大规模微调
2022-10-24：XM3600：36种语言图像描述
2022-10-24：闽南语翻译：3000种无文字语言

Transfomer：取代RNN、CNN，大模型时代开启
MoE：稀疏混合专家结构
Bert：突破10亿的NLP大模型
GPT3：全新语言模型，1750亿参数
Switch Transformer：首个突破万亿大模型
GLaM：1.2万亿参数的通用稀疏语言模型

三、SOTA大模型算法

Bert
预训练+微调
GPT3
无从考证
Switch Transformer
路由选择其中一个FFN作为专家

参考文献：

b站 up主 ZOMI酱：https://www.bilibili.com/video/BV1ge411L7mi/?spm_id_from=333.788&vd_source=071a6a156f5d29dbb9701c2bdbda3878

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。