关于深度学习中使用多卡GPU进行训练学习总结

最新推荐文章于 2024-08-20 10:01:03 发布

learning112358

最新推荐文章于 2024-08-20 10:01:03 发布

阅读量2.7k

点赞数

文章标签：深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/learning5201/article/details/120271387

版权

（备注：该博文还没写完）
1.nn.parallel.scatter 向多个设备分发参数
在这里插入图片描述
这是实现方法，在模型中可以值调用函数，其原理就是通过for循环然后copy到不同的设备上
2.allreduce 函数将所有向量相加，并将结果广播给所有的gpu

3.将一个小批量的数据均匀地分布在多个GPU上

使用多机多卡的形式
在使用多机多卡训练数据是，通常分为两种形式：（1）数据并行，模型复制为n份，然后每一份模型中传入不同bacth数据用进行训练。（2）模型并行，用于解决一张卡上容不下一个模型的参数量问题。
1.数据并行的方式
Data Parallel - Data distributed across devices
pytorch中主要有两种方式用于实现数据并行：DataParallel 和DistributedDataParallel ，这两个函数可以保证复制（replicate）出来的模型参数相同，主要区别在于DataParallel 用于线程，而 DistributedDataparallel 是用于多进程。
1.1 single machine data parallel
在这里插入图片描述
1.2 Distributed Data Parallel
Distributed Data Parallel 的方式是通过多进程实现的，每个进程读取一个小批量的数据然后传递给自己负责的一个gpu
进行计算

2.模型并行的方式
Model Parallel -Model distributed across devices
2.1 single machine Model Parallel
在这里插入图片描述
2.2 Distributed Data Parallel with Model Parallel