Pytorch加载MNIST数据集——访问权限问题解决办法

Pytorch用torchvision.datasets.MNIST下载并导入MNIST数据集问题解决办法

由于对于pytorch的学习仅仅是复现项目并作微调,没有系统学习pytorch框架,于是最近准备把网上推荐最简洁有用的pytorch教程系统地看一遍并全部复现,而这个教程框架全部是基于MNIST数据集上实现的,我在导入数据集这第一步就卡住了。

主要问题为:如果我使用在线下载mnist数据集,则会出现访问文件下载所在网址的权限出错这一问题,我手动用浏览器进入该网址,也是无访问权限的,于是在线下载这条路行不通;而我手动下载四个.gz文件,放入指定路径下,则始终报错找不到数据集,于是这一条路也走不通。各种搜索加轰炸GPT也没能成功解决,最后自己豁然开朗。
后来发现问题出现的原因是手动下载的文件没有mnist调用的固定框架,即raw文件夹和processed文件夹,如下图所示:
mnist数据集默认框架

于是我把torchvision.datasets.MNIST中的MNIST源文件中的下载源改成了github上的下载网址而不是官方网站,这样既能下载四个数据文件,又满足mnist默认的框架,成功解决。具体操作和程序如下。

一、正常情况下直接用torchvision.datasets.MNIST在线下载数据集并导入

用这个包正常情况下可以下载并加载mnist数据集,程序如下。其中如果download参数设置为True,则下载源为http://yann.lecun.com,这时候如果没有特殊操作一般都没有访问权限,国内的同学们应该都需要手动下载.gz文件,如果想直接用以下程序继续加载数据集的话在命令行中解压:gunzip <filename>,但是这时把这些解压后的文件放在哪里才能被torchvision.datasets.MNIST函数找到呢?相信很多人放在root路径下也照样不成功。

# MNIST dataset 
train_dataset = torchvision.datasets.MNIST(root=root, 
                                           train=True, 
                                           transform=transforms.ToTensor(),
                                           download=True)

test_dataset = torchvision.datasets.MNIST(root=root, 
                                          train=False, 
                                          transform=transforms.ToTensor(),
                                          download=True)

# Data loader
train_loader = torch.utils.data.DataLoader(dataset=train_dataset, 
                                           batch_size=batch_size, 
                                           shuffle=True)

test_loader = torch.utils.data.DataLoader(dataset=test_dataset, 
                                          batch_size=batch_size, 
                                          shuffle=False)

二、改下载源

如果按照上述所说直接下载四个.gz文件还是无法加载数据集成功的,原因是没有mnist数据集框架,因此应该会一直报错找不到数据集,解决办法是设置download为True,还是靠在线下载才能下载我们需要的mnist框架及其.pt文件。对于官方网站无权限问题,直接换个下载源即可。具体操作为按住ctrl选择torchvision.datasets.MNIST中的MNIST并点击,进入MNIST源文件,找到以下代码块:

resources = [
        ("http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz", "f68b3c2dcbeaaa9fbdd348bbdeb94873"),
        ("http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz", "d53e105ee54ea40749a09fcbcd1e9432"),
        ("http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz", "9fb629c4189551a2d022fa330f9573f3"),
        ("http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz", "ec29112dd5afa0611ce80d1b7f02629c")
    ]

改为:

resources = [
        ("https://storage.googleapis.com/cvdf-datasets/mnist/train-images-idx3-ubyte.gz", "f68b3c2dcbeaaa9fbdd348bbdeb94873"),
        ("https://storage.googleapis.com/cvdf-datasets/mnist/train-labels-idx1-ubyte.gz", "d53e105ee54ea40749a09fcbcd1e9432"),
        ("https://storage.googleapis.com/cvdf-datasets/mnist/t10k-images-idx3-ubyte.gz", "9fb629c4189551a2d022fa330f9573f3"),
        ("https://storage.googleapis.com/cvdf-datasets/mnist/t10k-labels-idx1-ubyte.gz", "ec29112dd5afa0611ce80d1b7f02629c")
    ]

重新运行程序,就可以成功加载mnist数据集了,这时候可以把下载下来的data文件夹换到任何路径,只要相应改torchvision.datasets.MNIST中的root参数为data绝对路径,都可以加载成功,至此,问题解决。

  • 25
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值