分布式-集群

saoqi_boy

已于 2023-09-03 10:02:30 修改

阅读量259

点赞数

分类专栏：分布式深度学习文章标签：深度学习分布式人工智能

于 2023-08-31 00:16:47 首次发布

本文链接：https://blog.csdn.net/saoqi_boy/article/details/132585660

版权

2 篇文章

订阅专栏

深度学习之分布式
本系列介绍用于大模型如何利用AI集群来进行分布式训练。
内容知识来源于网络知识，侵删。

前言

参数服务器（PS）模式
有一个或多个中心节点，这些节点用于聚合参数和管理模型参数。而集合通讯（CC）模式没有中心节点，每个节点不仅要负责训练，同时还需实时掌握全局梯度信息。
同步与异步执行
同步：等待所有节点完成梯度计算再更新网络参数。
异步：不等待所有节点完成梯度，直接利用旧的网络参数来进行计算。
半同步：设置一个阈值，超过这个阈值就不等了。
环同步算法
第一步：沿环收集数据

第二步：沿环广播

并行处理硬件架构
单指令单数据集（SISD）、单指令多数据集（SIMD）、多指令单数据集（MIMD）、多指令多数据集（MIMD）
AI框架中的分布式训练
基于内嵌式分布式策略：TensorFlow/MindSpore为代表的基于计算图的AI框架，自动；
基于提供通信原语分布式训练策略：以解释执行AI框架Pytorch，灵活。