分布式深度学习
文章平均质量分 76
用于总结如何进行大模型分布式的训练
saoqi_boy
这个作者很懒,什么都没留下…
展开
-
分布式-集群
参数服务器(PS)模式有一个或多个中心节点,这些节点用于聚合参数和管理模型参数。而集合通讯(CC)模式没有中心节点,每个节点不仅要负责训练,同时还需实时掌握全局梯度信息。同步与异步执行同步:等待所有节点完成梯度计算再更新网络参数。异步:不等待所有节点完成梯度,直接利用旧的网络参数来进行计算。半同步:设置一个阈值,超过这个阈值就不等了。环同步算法第一步:沿环收集数据第二步:沿环广播。原创 2023-08-31 00:16:47 · 162 阅读 · 0 评论 -
分布式-算法
内存墙静态内存:模型自身权重、优化器状态动态内存:前向输出、梯度输出、算子计算的临时变量、反向传播时逐渐释放的内存通信墙片间通信、集群内通信性能墙AI芯片、AI分布式框架的运行和调度效率、分布式并行的优化手段调优墙保证计算正确性、性能、可行性、手工分布式的难度。原创 2023-09-03 09:58:50 · 152 阅读 · 0 评论