mnist数据下载、格式分析与读取

这篇博客介绍了MNIST数据集的下载、格式分析及读取方法。数据包括训练集和测试集的图像文件和标签文件,存储为idx3-ubyte格式。训练集和测试集的图像以28x28像素的灰度图像形式存在,0表示背景(白色),255表示前景(黑色)。读取代码包含详细注释。
数据下载

Mnist数据下载地址:http://yann.lecun.com/exdb/mnist/
Mnist数据下载
这四个文件包含了全部的Mnist数据。解压后就会得到idx3-ubyte类型的四个文件。

数据格式分析

idx3-ubyte类型的文件需要处理一下才能读取到python中,在讲解如何读取时,先了解一下mnist数据的存储格式。

  1. TRAINING SET LABEL FILE
    TRAINING SET LABEL FILE
    训练数据的label文件中,前两个32位整数位分别为magic number和item数量,之后的6000个unsigned byte为6000张图像的label,label值范围从0到9。

  2. TRAINING SET IMAGE FILE
    TRAINING SET IMAGE FILE
    Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).
    前4个32位整型分别为magic number、图片数、行数、列数。后面按顺序有28*28*6000个像素的颜色值,其中0为白,255为黑。也就相当于,每个28像素*28像素的图像被展开,变成了一维的数据,而6000个这样的一维数据拼接,就组成了这个数据。

  3. TEST SET LABEL FILE
    TEST SET LABEL FILE
    与训练数据类似,不过item个数为10000。

  4. TEST SET IMAGE FILE
    TEST SET IMAGE FILE
    Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (b

资源下载链接为: https://pan.quark.cn/s/d0b0340d5318 MNIST 数据集是机器学习领域常用的基准数据集之一,用于手写数字识别任务。以下是常见的四种 MNIST 数据格式及其获取方式: MNIST 数据集的 .npz 格式 这种格式数据集通常以压缩文件的形式提供,包含训练集和测试集的数据及标签。可以通过访问 https://s3.amazonaws.com/img-datasets 下载。该格式方便直接加载到 Python 等编程环境中使用,适合快速进行数据处理和模型训练。 MNIST 数据集的二进制版本 二进制格式MNIST 数据集是原始的、未经压缩的格式数据以二进制文件的形式存储。可以从 http://yann.lecun.com/exdb/mnist3 获取。这种格式适合需要直接处理原始数据的场景,但读取时需要编写相应的解析代码。 MNIST 数据集的 .pkl.gz 格式 .pkl.gz 格式是经过 Python 的 pickle 模块序列化并压缩后的数据集。它可以直接在 Python 环境中加载使用,适合 Python 的机器学习框架(如 TensorFlow 或 PyTorch)配合使用。 MNIST 数据集的图片集格式 这种格式数据集是通过将 .npz 格式数据集转换而来的。转换后的数据集以图片的形式存储,分为训练集和测试集两个文件夹。训练集文件夹包含 60,000 张训练图片,测试集文件夹包含 10,000 张测试图片。每张图片对应一个手写数字,这种格式便于进行可视化分析和直接处理图片数据。 如果需要下载上述数据集,请确保链接的合法性,并在网络状态良好的情况下尝试访问。如果遇到问题,建议检查链接是否正确或稍后重试。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值