查看dataloader的大小_一文弄懂Pytorch的DataLoader, DataSet, Sampler之间的关系

最新推荐文章于 2024-03-15 12:53:45 发布

adamlam99

最新推荐文章于 2024-03-15 12:53:45 发布

阅读量5.5k

点赞数 4

文章标签：查看dataloader的大小

本文链接：https://blog.csdn.net/weixin_32804237/article/details/112765787

版权

本文深入探讨Pytorch中DataLoader、Dataset和Sampler的关系。DataLoader结合Sampler获取数据，Dataset提供数据读取。自定义Sampler需继承AbstractSampler，确保返回可迭代的index列表。Dataset的__getitem__方法用于数据访问，可直接调试。了解这些概念有助于更好地理解和使用Pytorch数据加载机制。

摘要由CSDN通过智能技术生成

以下内容都是针对Pytorch 1.0-1.1介绍。
很多文章都是从Dataset等对象自下往上进行介绍，但是对于初学者而言，其实这并不好理解，因为有的时候会不自觉地陷入到一些细枝末节中去，而不能把握重点，所以本文将会 自上而下地对Pytorch数据读取方法进行介绍。

自上而下理解三者关系

首先我们看一下DataLoader.__next__的源代码长什么样,为方便理解我只选取了num_works为0的情况（num_works简单理解就是能够并行化地读取数据）。

class DataLoader(object):
    ...
    
    def __next__(self):
        if self.num_workers == 0:  
            indices = next(self.sample_iter)  # Sampler
            batch = self.collate_fn([self.dataset[i] for i in indices]) # Dataset
            if self.pin_memory:
                batch = _utils.pin_memory.pin_memory_batch(batch)
            return batch

在阅读上面代码前，我们可以假设我们的数据是一组图像，每一张图像对应一个index，那么如果我们要读取数据就只需要对应的index即可，即上面代码中的indices，而选取index的方式有多种，有按顺序的，也有乱序的，所以这个工作需要Sampler完成，现在你不需要具体的细节，后面会介绍，你只需要知道DataLoader和Sampler在这里产生关系。

那么Dataset和DataLoader在什么时候产生关系呢？没错就是下面一行。我们已经拿到了indices，那么下一步我们只需要根据index对数据进行读取即可了。

再下面的if语句的作用简单理解就是，如果pin_memory=True,那么Pytorch会采取一系列操作把数据拷贝到GPU，总之就是为了加速。

综上可以知道DataLoader，Sampler和Dataset三者关系如下：