查看dataloader的大小_一文弄懂Pytorch的DataLoader, DataSet, Sampler之间的关系

最新推荐文章于 2024-03-15 12:53:45 发布

weixin_39926639

最新推荐文章于 2024-03-15 12:53:45 发布

阅读量4.2k

点赞数 1

文章标签：查看dataloader的大小

本文链接：https://blog.csdn.net/weixin_39926639/article/details/112765783

版权

本文自上而下解析Pytorch中的DataLoader、Dataset和Sampler，阐述三者的关系。DataLoader通过Sampler获取数据index，结合Dataset读取数据。介绍如何自定义Sampler和BatchSampler，以及Dataset的基本方法，帮助理解数据加载机制。

摘要由CSDN通过智能技术生成

以下内容都是针对Pytorch 1.0-1.1介绍。
很多文章都是从Dataset等对象自下往上进行介绍，但是对于初学者而言，其实这并不好理解，因为有的时候会不自觉地陷入到一些细枝末节中去，而不能把握重点，所以本文将会自上而下地对Pytorch数据读取方法进行介绍。

关注"Smarter"，加" 星标 "置顶

及时获取最优质的CV内容

自上而下理解三者关系

首先我们看一下DataLoader.__next__^[1]的源代码长什么样,为方便理解我只选取了num_works为0的情况(num_works简单理解就是能够并行化地读取数据)。

class DataLoader(object):	...	    def __next__(self):        if self.num_workers == 0:              indices = next(self.sample_iter)  # Sampler            batch = self.collate_fn([self.dataset[i] for i in indices]) # Dataset            if self.pin_memory:                batch = _utils.pin_memory.pin_memory_batch(batch)            return batch

在阅读上面代码前，我们可以假设我们的数据是一组图像，每一张图像对应一个index，那么如果我们要读取数据就只需要对应的index即可，即上面代码中的indices，而选取index的方式有多种，有按顺序的，也有乱序的，所以这个工作需要Sampler完成，现在你不需要具体的细节，后面会介绍，你只需要知道DataLoader和Sampler在这里产生关系。

那么Dataset和DataLoader在什么时候产生关系呢？没错就是下面一行。我们已经拿到了indices，那么下一步我们只需要根据index对数据进行读取即可了。

再下面的if语句的作用简单理解就是，如果pin_memory=True,那么Pytorch会采取一系列操作把数据拷贝到GPU，总之就是为了加速。

综上可以知道DataLoader，

最低0.47元/天解锁文章

weixin_39926639

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫