昇思MindSpore：分布式并行，让快更快

最新推荐文章于 2024-09-04 14:24:09 发布

longvoyage

最新推荐文章于 2024-09-04 14:24:09 发布

阅读量153

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/longvoyage/article/details/129652241

版权

加入CSDN的昇思MindSpore社区，学习更多AI知识。

代码路径

代码

resnet.py和resnet50_distributed_training.py是训练网络定义脚本，run.sh是分布式训练执行脚本。

准备数据集

采用CIFAR-10数据集，由10类32*32的彩色图片组成，每类包含6000张图片，其中训练集共50000张图片，测试集共10000张图片。

将数据集下载并解压到本地，解压后文件夹为cifar-10-batches-bin。

配置分布式环境

CPU上数据并行主要分为单机多节点和多机多节点两种并行方式(一个训练进程可以理解为一个节点)。在运行训练脚本前，需要搭建组网环境，主要是环境变量配置和训练脚本里初始化接口的调用。

环境变量配置如下：

export MS_WORKER_NUM=8                # Worker number
export MS_SCHED_HOST=127.0.0.1        # Scheduler IP address
export MS_SCHED_PORT=6667             # Scheduler port
export MS_ROLE=MS_WORKER              # The role of this node: MS_SCHED represents the scheduler, MS_WORKER represents the worker

其中，

MS_WORKER_NUM：表示worker节点数，多机场景下，worker节点数是每机worker节点之和。
MS_SCHED_HOST：表示scheduler节点ip地址。
MS_SCHED_PORT：表示scheduler节点服务端口，用于接收worker节点发送来的ip和服务端口，然后将收集到的所有worker节点ip和端口下发给每个worker。
MS_ROLE：表示节点类型，分为worker（MS_WORKER）和scheduler（MS_SCHED）两种。不管是单机多节点还是多机多节点，都需要配置一个scheduler节点用于组网。