Pytorch--torch.utils.data.DataLoader

最新推荐文章于 2024-03-16 09:55:21 发布

==cai==

最新推荐文章于 2024-03-16 09:55:21 发布

阅读量124

点赞数

分类专栏： Python pytorch

本文链接：https://blog.csdn.net/hpulittle_804/article/details/118685397

版权

pytorch 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

Python

2 篇文章 0 订阅

订阅专栏

torch.utils.data.DataLoader是Pytorch中数据读取的一个重要接口，其在dataloader.py中定义，基本上只要是用oytorch来训练模型基本都会用到该接口，该接口主要用来将自定义的数据读取接口的输出或者PyTorch已有的数据读取接口的输入按照batch size封装成Tensor，后续只需要再包装成Variable即可作为模型的输入，主要包括DataLoader和DataLoaderIter两个类。

DataLoader类源码如下。先看看__init__中的几个重要的输入：1、dataset，这个就是PyTorch已有的数据读取接口（比如torchvision.datasets.ImageFolder）或者自定义的数据接口的输出，该输出要么是torch.utils.data.Dataset类的对象，要么是继承自torch.utils.data.Dataset类的自定义类的对象。2、batch_size，根据具体情况设置即可。3、shuffle，一般在训练数据中会采用。4、collate_fn，是用来处理不同情况下的输入dataset的封装，一般采用默认即可，除非你自定义的数据读取输出非常少见。5、batch_sampler，从注释可以看出，其和batch_size、shuffle等参数是互斥的，一般采用默认。6、sampler，从代码可以看出，其和shuffle是互斥的，一般默认即可。7、num_workers，从注释可以看出这个参数必须大于等于0，0的话表示数据导入在主进程中进行，其他大于0的数表示通过多个进程来导入数据，可以加快数据导入速度。8、pin_memory，注释写得很清楚了： pin_memory (bool, optional): If True, the data loader will copy tensors into CUDA pinned memory before returning them. 也就是一个数据拷贝的问题。9、timeout，是用来设置数据读取的超时时间的，但超过这个时间还没读取到数据的话就会报错。

参考：https://www.cnblogs.com/xufeng123/p/13984241.html