用Numpy读取MNIST数据集(附已经读取完成的mat文件)

MNIST是常用的手写字符数据集
可以在杨立昆的网站下载此数据集:http://yann.lecun.com/exdb/mnist/
该数据集的存储方式比较特殊,是用二进制格式存储的,以下是网站对数据集格式的说明

一共有四个文件,各自是训练集和测试集的图片数据和标签数据
在这里插入图片描述
在这里插入图片描述
可以看出,在数据集中,第一列为字节索引,第二列为对应字的类型,第三列为值,第四列为说明

在标签数据中,前4个字节用于存储magic number,是对数据类型的说明
在这里插入图片描述
第5-8个字节是用于存储样本数的,第9个字节开始才是数据部分,所以我们要从第9个字节开始读该文件

对于图像数据,前8个字节同上,不过其9-16个字节是用来存储图像矩阵的行列数的,所以我们要从第17个字符开始读起

Numpy里面有个函数frombuffer是用来转换字节数据的,以下是Numpy文档的说明

在这里插入图片描述
frombuffer函数有4个参数,第一个参数buffer是目标字节流数据,第二个参数dtype是转换后要返回的数据类型,第三个参数count是要读取的字节数,默认-1读取全部,第四个参数offset是偏移量,表示要从第几个字节开始读起,下面是转换的代码

import numpy as np
import scipy.io as sio

label_t10k_path = 't10k-labels.idx1-ubyte'
label_train_path = 'train-labels.idx1-ubyte'
img_t10k_path = 't10k-images.idx3-ubyte'
img_train_path = 'train-images.idx3-ubyte'

with open(label_t10k_path, 'rb') as label_obj:
    label_t10k = np.frombuffer(label_obj.read(), dtype=np.uint8, offset=8)
    m_t10k = len(label_t10k)
    label_t10k = np.asarray(label_t10k).reshape(m_t10k, 1)

with open(label_train_path, 'rb') as label_obj:
    label_train = np.frombuffer(label_obj.read(), dtype=np.uint8, offset=8)
    m_train = len(label_train)
    label_train = np.asarray(label_train).reshape(m_train, 1)

with open(img_t10k_path, 'rb') as img_obj:
    img_t10k = np.frombuffer(img_obj.read(), dtype=np.uint8, offset=16)
    img_t10k = np.asarray(img_t10k).reshape(m_t10k, 784)

with open(img_train_path, 'rb') as img_obj:
    img_train = np.frombuffer(img_obj.read(), dtype=np.uint8, offset=16)
    img_train = np.asarray(img_train).reshape(m_train, 784)

sio.savemat('MNIST.mat', {'label_t10k':label_t10k, 'label_train':label_train, 'img_t10k':img_t10k, 'img_train':img_train})

最后将所有数据打包为mat文件方便读取

下面是已经整理完的数据集百度云链接:
链接:https://pan.baidu.com/s/18Vpk_bSriFRU–eEdBXygA
提取码:efg0

  • 6
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值