pkl格式数据 训练集_MNIST数据集的标注格式

这篇博客详细介绍了MNIST数据集的pkl格式,包括IDX数据格式、训练集和测试集的标签及图像文件的格式,并提供了Python代码示例进行解析。文章讲述了MNIST数据集的背景、数据分布,以及如何使用struct模块处理大端存储的数据。
摘要由CSDN通过智能技术生成

9f226334f54326decf5bb39e807fa799.png

背景

Mnist数据集的识别问题可以算得上是——机器学习在视觉领域的hello world了,至少Gemfield这样认为。它的训练集有6万项数据,而测试集有1万项数据(其中前5000个来自最初NIST项目的训练集.,后5000个来自最初NIST项目的测试集。前5000个比后5000个要规整,这是因为前5000个数据来自于美国人口普查局的员工,而后5000个来自于大学生。还是大学生轻浮啊......)。在官方网站上,这些数据以4个gz压缩包的方式提供下载:

train-images-idx3-ubyte.gz: training set images (9912422 bytes)

train-labels-idx1-ubyte.gz: training set labels (28881 bytes)

t10k-images-idx3-ubyte.gz: test set images (1648877 bytes)

t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes)

这些数据的格式还是比较简单的,上面文件中的所有的数字都是按照MSB(大端)的方式存储的。Gemfield要提醒你的是,intel处理器是little-endian的。所以在intel处理器上或者其它的little-endian处理器上,用户必须要进行相应的翻转处理。不过Gemfield在本文中展示的代码使用了python的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值