[Pytorch]DataLoader数据读取机制
pytorch给定的Dataset是一个抽象类,所有自定义的Dataset都要继承它,并且复写__getitem__()和__len__()类方法,__getitem__()的作用是接受一个索引,返回一个样本或者标签。在实际项目中,如果数据量很大,考虑到内存有限、I/O 速度等问题,在训练过程中不可能一次性的将所有数据全部加载到内存中,也不能只用一个进程去加载,所以就需要多进程、迭代加载,而。的值生成一个 batch 的数据,节省内存的同时,它还可以实现多进程、数据打乱等处理。
原创
2024-01-23 22:27:48 ·
645 阅读 ·
2 评论