如何用Pytorch读取自己的数据集

最新推荐文章于 2024-08-24 11:47:11 发布

这题要怎么做

最新推荐文章于 2024-08-24 11:47:11 发布

阅读量1.5w

点赞数 25

分类专栏： pytorch 深度学习机器学习文章标签： python 深度学习 pytorch 神经网络机器学习

本文链接：https://blog.csdn.net/lifei1229/article/details/105519924

版权

本文介绍如何使用Pytorch读取自定义数据集，以Pokeman数据集为例，详细阐述数据预处理、数据加载和数据可视化的过程，包括将标签转换为数字并保存到CSV，使用Dataset和DataLoader，以及数据集的可视化。

摘要由CSDN通过智能技术生成

在训练经典的数据集如cifar10,minsit等，可以用官方自带的数据集格式几行就写出来，如果是自己下载的数据集，那么我们应该如何用pytorch来读取呢？其实是有模板可以直接仿照着写的。

本次案例采用的是pokeman数据集，并用该数据集进行分类。该数据如下所示：
在这里插入图片描述

其中文件夹的名字便是标签。数据集大小划分为：皮卡丘 234、超梦239、杰尼龟223、小火龙 238、妙蛙种子234张图。

在深度学习中一般的流程是：加载数据—>构建模型—>训练和测试。

读取数据

在pytorch读取数据，采用3个步骤

继承torch中的通用的母类：torch.utils.data.Dataset

from torch.utils.data.Dataset

__len __：这里需要返回定义数据的数量，返回整型数字
__getitem __ ：这里返回样本、标签等

一个简单的例子

from torch.utils.data import Dataset, DataLoader
class NumberDataset(Dataset):   #首先要继承Dataset母类
    def __init__(self, training=True):  #区分训练和测试
        if training:
            self.samples = list(range(1, 1001))   #加载数据，一般是存放数据的地址，不然内存爆炸
        else:
            self.samples = list(range(1001, 15001))

    def __len__(self):
        return len(self.samples)    #

    def __getitem__(self, idx):  # idx 是位置标号，在len(self.samples) 内，一个一个的读取该位置数据
        return self.samples[idx]

小结：1、首先得到所有的数据的地址名字（训练或测试）；2、给出数据集长度；3、返回指定位置的数据内容，可以在该数据上进行任何预处理操作。

现在读取本次给的pokeman数据集

python代码框架为：

from torch.utils.data import Dataset, DataLoader  #自定义的母类，必须的
class Pokemon(Dataset):
    def __init__(self):        #去读数据路径
    	super(Pokemon, self).__init__()
    	pass
    def __len__(self):  #返回数据长度
    	pass
    def __getitem__(self, idx):  #返回当前位置的数据和标签
    	pass

接下来就是填充每一块函数里面的内容了。

1 将标签转化数字，且数据地址及其标签保存csv文件

首先需要加载数据和标签，因为标签需要转化成0，1，2，3，4，最好保存为csv文件，下次便可以直接加载csv文件。因此我们需要事先写一个函数保存csv文件，不写也可以，最好是写成csv。

下面这个函数可以单独写成一个文件，也可以放在class Pokemon(Dataset)里面。

	def load_csv(self, filename):
	    if not os.path.exists(os.path.join(self.root, filename)): 
	     #如果没有保存csv文件，那么我们需要写一个csv文件，如果有了直接读取csv文件
	        images = []
	        for name in self.name2label.keys():   
	            # 'pokemon\\mewtwo\\00001.png
	            images += glob.glob(os.path