Pytorch每个Epoch开始时加载数据速度慢解决方法

问题描述

Pytorch的Dataloader一般会设置多个worker加载数据以提升训练速度。然而,可以发现每个epoch开始的时候数据加载的耗时总会高一截,具体表现如图:
第1个epoch的开始部分
第2个epoch的开始部分
第3个epoch的开始部分

问题原因

正如Pytorch Forum这个讨论一样,DataLoader在每个epoch开始的时候都会重新创建一次,因此每个epocch开始所有的worker会重新开始prefetching过程,因此速度会变慢。

Pytorch Forum关于此问题的讨论

Solution

参考这里的代码, 可以用MultiEpochsDataLoader代替原来的DataLoader即可。

class MultiEpochsDataLoader(torch.utils.data.DataLoader):

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self._DataLoader__initialized = False
        self.batch_sampler = _RepeatSampler(self.batch_sampler)
        self._DataLoader__initialized = True
        self.iterator = super().__iter__()

    def __len__(self):
        return len(self.batch_sampler.sampler)

    def __iter__(self):
        for i in range(len(self)):
            yield next(self.iterator)


class _RepeatSampler(object):
    """ Sampler that repeats forever.
    Args:
        sampler (Sampler)
    """

    def __init__(self, sampler):
        self.sampler = sampler

    def __iter__(self):
        while True:
            yield from iter(self.sampler)

改进之后效果

使用MultiEpochsDataLoader第1个epoch
使用MultiEpochsDataLoader第2个epoch

Reference

相关讨论:
Pytorch讨论1
Pytorch讨论2
Github PR

  • 14
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Tinet-

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值