1.简介
一台机器可以安装多个GPU(1-16)。在训练和预测时,我们将一个小批量计算切分到多个GPU上来达到加速目的。常用的切分方案:数据并行、模型并行、通道并行(数据+模型并行)
数据并行:将小批量分成n块,每个GPU拿到完整参数计算一块数据的梯度,通常性能更好。比如有4块显卡,① 首先把样本切成4块,每张卡读取一个数据块;② 每个GPU都拿回完整的参数;③ 每个GPU使用完整的参数来计算自己样本的梯度;④ 将梯度传回;⑤ 所有样本的梯度相加后,更新梯度。
模型并行:将模型分成n块,每个GPU拿到一块模型计算它的前向和后向结果。通常用于模型大到单GPU放不下。
2. 多GPU训练
Pytorch 默认只会使用一个 GPU。 通过使用 DataParallel 可以使得模型并行运行,可以轻松地在多个 GPU 上运行操作。使用nn.DataParallel
进行torch的多GPU训练,与单GPU的不同就是多了一条语句model = nn.DataParallel(model)
,会自动将数据分成n块放到n个GPU中。官方文档
核心:
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
model = nn.DataParallel(model, device_ids=[0, 1, 2]) #没有device_ids会分配到所有可用的GPU上。
model.to(device)
input = data.to(device)
具体的:
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
import time
# parameters and DataLoaders
input_size = 5
output_size = 2
batch_size = 30
data_size = 100
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
# 随机数据集
class RandomDataset(Dataset):
def __init__(self, size, length):
self.len = length
self.data = torch.randn(length, size)
# 为dataloader做准备
def __getitem__(self, index):
return self.data[index]
def __len__(self):
return self.len
rand_loader = DataLoader(dataset=RandomDataset(input_size, data_size),
batch_size=batch_size, shuffle=True)
# 以简单模型为例,同样可以用于CNN, RNN 等复杂模型
class Model(nn.Module):
def __init__(self, input_size, output_size):
super(Model, self).__init__()
self.fc = nn.Linear(input_size, output_size)
def forward(self, input):
output = self.fc(input)
print('In model: input size', input.size(), 'output size:', output.size())
return output
# 实例
model = Model(input_size, output_size)
if torch.cuda.device_count() >= 1:
print("Use", torch.cuda.device_count(), 'gpus')
#-----------------------------------------------------
model = nn.DataParallel(model, device_ids=[0, 1, 2])
#-----------------------------------------------------
model.to(device)
for data in rand_loader:
start = time.time()
input = data.to(device)
output = model(input)
end = time.time()
print('Outside: input size ', input.device, 'output size: ', output.device)
print(end-start)
print(model.device_ids)
model调用的函数都要变成model.module,注意保存模型时:
torch.save(net.module.state_dict(), file_name)