torch Dataloader中的num_workers

Wanderer001

已于 2023-11-02 20:21:21 修改

阅读量2.9k

点赞数

分类专栏： Pytorch 文章标签：计算机视觉深度学习机器学习

于 2022-05-10 11:18:04 首次发布

本文链接：https://blog.csdn.net/weixin_36670529/article/details/106329039

版权

本文通过实验分析了在不同硬盘类型（机械硬盘和SSD）以及torch DataLoader中设置`num_workers`参数对批量读取txt文件效率的影响。实验结果显示，无论在SSD还是机械硬盘上，总耗时基本不变，与预期的并行加速效果不符，引发对num_workers工作原理的疑问。同时，使用ray读取数据的实验表明，最佳的并行效果在n_cpu=2时达到。

摘要由CSDN通过智能技术生成

参考 torch Dataloader中的num_workers - 云+社区 - 腾讯云

考虑这么一个场景，有海量txt文件，一个个batch读进来，测试一下torch DataLoader的效率如何。

基本信息：

本机配置：8核32G内存，工作站内置一块2T的机械硬盘，数据均放在该硬盘上
操作系统：ubuntu 16.04 LTS
pytorch：1.0
python：3.6

1、首先生成很多随机文本txt

def gen_test_txt():
    population = list(string.ascii_letters) + ['\n']
    for i in range(1000):
        with open(f'./test_txt/{i}.txt', 'w') as f:
            f.write(
                ''.join(random.choices(population, k=1000000))
            )