Pytorch之DataLoader的num_works参数设置

最新推荐文章于 2024-03-05 21:14:09 发布

_Celeste_

最新推荐文章于 2024-03-05 21:14:09 发布

阅读量1.6w

点赞数 37

文章标签：多线程 pytorch 机器学习 python 经验分享

本文链接：https://blog.csdn.net/qq_41196472/article/details/106393994

版权

数据集较小时（小于2W）建议num_works不用管默认就行，因为用了反而比没用慢。

当数据集较大时建议采用，num_works一般设置为（CPU线程数+-1）为最佳，可以用以下代码找出最佳num_works（注意windows用户如果要使用多核多线程必须把训练放在if name == 'main':下才不会报错）

import time
import torch.utils.data as d
import torchvision
import torchvision.transforms as transforms


if __name__ == '__main__':
    BATCH_SIZE = 100
    transform = transforms.Compose([transforms.ToTensor(),
                                    transforms.Normalize((0.5,), (0.5,))])
    train_set = torchvision.datasets.MNIST('\mnist', download=False, train=True, transform=transform)
    
    # data loaders
    train_loader = d.DataLoader(train_set, batch_size=BATCH_SIZE, shuffle=True)
    
    for num_workers in range(20):
        train_loader = d.DataLoader(train_set, batch_size=BATCH_SIZE, shuffle=True, num_workers=num_workers)
        # training ...
        start = time.time()
        for epoch in range(1):
            for step, (batch_x, batch_y) in enumerate(train_loader):
                pass
        end = time.time()
        print('num_workers is {} and it took {} seconds'.format(num_workers, end - start))

_Celeste_

关注

37
点赞
踩
120

收藏

觉得还不错? 一键收藏
0
评论
Pytorch之DataLoader的num_works参数设置

数据集较小时（小于2W）建议num_works不用管默认就行，因为用了反而比没用慢。当数据集较大时建议采用，num_works一般设置为（CPU线程数-1）为最佳，可以用以下代码找出最佳num_works（注意windows用户如果要使用多线程必须把训练放在if __name__ == '__main__':下才不会报错）import timeimport torch.utils.data as dimport torchvisionimport torchvision.transforms
复制链接

扫一扫