目录
4.DP(DataParallel)与DDP(DistributedDataParallel)
五、使用单GPU与多GPU保存的区别(使用多GPU训练的模型的保存与调用)
本文章主要介绍多GPU训练中的数据并行方式:DataParallel和DistributedDataParallel。
其中详细介绍了这两个方法的工作模式、优缺点及运行过程中出现的问题。
一、概述
1.分布式与并行
分布式:分布式是指使用多台服务器的多块GPU进行运算,即多机多卡。
并行:并行是指使用一台服务器的多个GPU运算,即单机多卡。
2.模型并行与数据并行:
模型并行:模型并行是指根据规则将模型拆分为多个部分分别分配到多个GPU上,每个GPU输入数据是一致的。
数据并行:数据并行是指将数据平均分配到多个GPU上,每个GPU的模型是一致的。
相较