数据下载
Mnist数据下载地址:http://yann.lecun.com/exdb/mnist/
这四个文件包含了全部的Mnist数据。解压后就会得到idx3-ubyte类型的四个文件。
数据格式分析
idx3-ubyte类型的文件需要处理一下才能读取到python中,在讲解如何读取时,先了解一下mnist数据的存储格式。
-
TRAINING SET LABEL FILE
训练数据的label文件中,前两个32位整数位分别为magic number和item数量,之后的6000个unsigned byte为6000张图像的label,label值范围从0到9。 -
TRAINING SET IMAGE FILE
Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).
前4个32位整型分别为magic number、图片数、行数、列数。后面按顺序有28*28*6000个像素的颜色值,其中0为白,255为黑。也就相当于,每个28像素*28像素的图像被展开,变成了一维的数据,而6000个这样的一维数据拼接,就组成了这个数据。 -
TEST SET LABEL FILE
与训练数据类似,不过item个数为10000。 -
TEST SET IMAGE FILE
Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background