和图像文件类似:
第1-4个byte存的是文件的magic number,对应的十进制大小是2049;
第5-8个byte存的是number of items,即label数量60000;
从第9个byte开始,每个byte存一个图片的label信息,即数字0-9中的一个。
计算一下训练集标签文件train-labels-idx1-ubyte的文件大小:
1x60000+8=60008 bytes。
与该文件实际的大小一致:
另外两个文件,即测试集图像文件、测试集标签文件的存储方式和训练图像文件、训练标签文件相似,只是图像数量由60000变为10000。
使用python访问MNIST数据集文件内容
知道了MNIST二进制文件的存储方式,下面介绍如何使用python访问文件内容。同样以训练集图像文件train-images-idx3-ubyte为例:
import numpy as np
import matplotlib.pyplot as plt
'''试验transpose()
def back (a,b):
return a,b
if __name__ == '__main__':
a = np.array([[1,2,3],