pycharm加载本地数据集_PyTorch加载自己的数据集

一、前言

在深度学习中,需要加载数据对神经网络进行训练,现有的主流数据集及常用的经典数据集例如COCO,MINIST,CIFAR等,在许多开源的项目中例如MMCV,torchvision中都有对应的加载,对于自己的数据集而言,应该如何加载自定义数据集呢。

torchvision.datasets - PyTorch master documentation​pytorch.org

本文就图片数据集的加载进行分析,数据集为转化为图片和json标注文件的CIFAR10数据集,数据集的文件格式如下所示torchvision.datasets - PyTorch master documentation本文就图片数据集的加载进行分析,数据集为转化为图片和json标注文件的CIFAR10数据集,数据集的文件格式如下所示

b97198636ecff1d08df80c22c25c78ee.png

a5bb0148614794bea2e89ebfb2e9dbff.png

将CIFAR10数据集转换成图片文件和json文件的标注参照这篇文章:

HUST小菜鸡:CIFAR10数据集转换成图片及标注文件​zhuanlan.zhihu.com

二、直接读取

#读取文件位置
def get_path('path-str'):
    ...
    return file_path

#读取图片
def loader_img(file_path):
    #根据图片的位置读取图片并返回读取的图片和标签
    #对图片进行处理
    ...

    return imgs_list, label_list

#获取batchsize大小的数据
def get_train_data(imgs_list,label_list,batchsize):
    ...
    return img[1],img[2],...,img[batchsize]

以上是常规的思路,在原理上来说是可行的,但是如果batchsize很大,那么用这种方式去读取数据集会带来如下弊端:

  • 将所有的图像数据直接加载到numpy数据中会占用大量的内存
  • 由于需要对数据进行导入,每次训练的时候在数据读取阶段会占用大量的时间
  • 只使用了单线程去读取,读取效率比较低下
  • 拓展性很差,只能对数据进行一些单一的预处理

PyTorch中有工具函数torch.utils.Data.DataLoader,通过这个函数我们在准备加载数据集使用mini-batch的时候可以使用多线程并行处理,这样可以加快我们准备数据集的速度。Datasets就是构建这个工具函数的实例参数之一。这样我们就可以批量加载数据或者并行加载数据

三、class Datasets

3eb5c6599cbb5a38d4784b42db09ce0b.png
torch.utils.data - PyTorch master documentation​pytorch.org
class Dataset(object):
    r"""An abstract class representing a :class:`Dataset`.

    All datasets that represent a map from keys to data samples should subclass
    it. All subclasses should overwrite :meth:`__getitem__`, supporting fetching a
    data sample for a given key. Subclasses could also optionally overwrite
  • 5
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
将MNIST数据集导入PyTorch的步骤如下: 1. 安装必要的库:在PyCharm中的项目中,你需要确保已经安装了PyTorch和torchvision库。你可以使用以下命令在PyCharm的终端中安装它们: ```python pip install torch torchvision ``` 2. 导入必要的库:在你的Python代码中,导入所需的库。通常,你需要导入`torch`和`torchvision`: ```python import torch import torchvision ``` 3. 加载MNIST数据集:使用torchvision库中的`torchvision.datasets`模块,你可以方便地加载MNIST数据集。在PyTorch中,MNIST数据集有两个版本可用:原始的手写数字MNIST数据集和Fashion-MNIST数据集。以下是加载原始MNIST数据集的示例代码: ```python from torchvision import datasets # 定义数据集存储路径 data_path = './data' # 定义训练数据集 train_dataset = datasets.MNIST(data_path, train=True, download=True, transform=None) # 定义测试数据集 test_dataset = datasets.MNIST(data_path, train=False, download=True, transform=None) ``` 在上述代码中,`data_path`是一个存储数据集文件的目录路径。`train=True`表示加载训练数据集,`train=False`表示加载测试数据集。`download=True`表示如果数据集文件不存在,则自动下载。 4. 数据预处理(可选):根据需要,你可以对数据集进行一些预处理操作,如转换图像大小、标准化或应用其他增强技术。这些预处理操作可以通过`torchvision.transforms`来实现。以下是一个对数据集进行标准化处理的示例: ```python from torchvision import transforms # 定义数据预处理操作 transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,)) ]) # 对训练数据集应用预处理 train_dataset = datasets.MNIST(data_path, train=True, download=True, transform=transform) # 对测试数据集应用预处理 test_dataset = datasets.MNIST(data_path, train=False, download=True, transform=transform) ``` 在上述代码中,`transforms.ToTensor()`将图像转换为张量,`transforms.Normalize()`对张量进行标准化。 现在,你已经成功将MNIST数据集导入PyTorch中,并可以在你的代码中使用它们进行训练或评估。希望这些步骤能帮助到你!如果你有进一步的问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值