torch笔记二十一 | 单机多卡并行

最新推荐文章于 2024-05-09 14:14:03 发布

Hygge MrYang

最新推荐文章于 2024-05-09 14:14:03 发布

阅读量1.7k

点赞数

分类专栏： torch笔记文章标签：深度学习 python

本文链接：https://blog.csdn.net/qq_38276972/article/details/118093577

版权

torch笔记专栏收录该内容

24 篇文章 10 订阅

订阅专栏

1.简介

一台机器可以安装多个GPU（1-16）。在训练和预测时，我们将一个小批量计算切分到多个GPU上来达到加速目的。常用的切分方案：数据并行、模型并行、通道并行（数据+模型并行）

数据并行：将小批量分成n块，每个GPU拿到完整参数计算一块数据的梯度，通常性能更好。比如有4块显卡，① 首先把样本切成4块，每张卡读取一个数据块；② 每个GPU都拿回完整的参数；③ 每个GPU使用完整的参数来计算自己样本的梯度；④ 将梯度传回；⑤ 所有样本的梯度相加后，更新梯度。

模型并行：将模型分成n块，每个GPU拿到一块模型计算它的前向和后向结果。通常用于模型大到单GPU放不下。

2. 多GPU训练

Pytorch 默认只会使用一个 GPU。通过使用 DataParallel 可以使得模型并行运行，可以轻松地在多个 GPU 上运行操作。使用nn.DataParallel进行torch的多GPU训练，与单GPU的不同就是多了一条语句model = nn.DataParallel(model)，会自动将数据分成n块放到n个GPU中。官方文档

核心：

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

model = nn.DataParallel(model, device_ids=[0, 1, 2]) #没有device_ids会分配到所有可用的GPU上。

model.to(device)

input = data.to(device)

具体的：

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
import time


# parameters and DataLoaders
input_size = 5
output_size = 2

batch_size = 30
data_size = 100

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')


# 随机数据集
class RandomDataset(Dataset):

    def __init__(self, size, length):
        self.len = length
        self.data = torch.randn(length, size)

    # 为dataloader做准备
    def __getitem__(self, index):
        return self.data[index]

    def __len__(self):
        return self.len


rand_loader = DataLoader(dataset=RandomDataset(input_size, data_size),
                         batch_size=batch_size, shuffle=True)


# 以简单模型为例，同样可以用于CNN, RNN 等复杂模型
class Model(nn.Module):
    def __init__(self, input_size, output_size):
        super(Model, self).__init__()
        self.fc = nn.Linear(input_size, output_size)

    def forward(self, input):
        output = self.fc(input)
        print('In model: input size', input.size(), 'output size:', output.size())
        return output


# 实例
model = Model(input_size, output_size)

if torch.cuda.device_count() >= 1:
    print("Use", torch.cuda.device_count(), 'gpus')
    #-----------------------------------------------------
    model = nn.DataParallel(model, device_ids=[0, 1, 2])
    #-----------------------------------------------------

model.to(device)

for data in rand_loader:
    start = time.time()
    input = data.to(device)
    output = model(input)
    end = time.time()
    print('Outside: input size ', input.device, 'output size: ', output.device)
    print(end-start)
print(model.device_ids)

model调用的函数都要变成model.module，注意保存模型时：

torch.save(net.module.state_dict(), file_name)

Hygge MrYang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
torch笔记二十一 | 单机多卡并行

多GPU并行运算
复制链接

扫一扫

专栏目录

torch笔记二十一 | 单机多卡并行

2. 多GPU训练

“相关推荐”对你有帮助么？