MNIST手写体数字数据集
本文从MNIST数据集的文件、文件格式、存储方式以及使用C++对其读取的流程(最终保存为图片)进行介绍。
-
MNIST原始数据文件
包含以上4个数据文件
-
文件格式
以下只以训练集图片文件为例说明:
<div<魔数,其实就是一个校验数,用来判断这个文件是不是MNIST里面的train-labels.idx1-ubyte文件;
3.数据集
训练样本:共60000个,
其中55000个用于训练,另外5000个用于验证(评估训练过程中的准确度);
测试样本:共10000个(评估最终模型的准确度);
所有数字图像已经进行尺寸归一化、数字居中处理,固定尺寸为28×28像素。
- MNIST大端存储方式
大端存储:高位字节放在内存低地址,
低位字节放在内存高地址;
区别于C/C++变量中的小端存储
小端存储:低位字节放在内存低地址,
高