在http://yann.lecun.com/exdb/mnist/ 网上下载好数据集之后解压,得到如下四个文件。
但是这些个文件怎么用呢,参照网站上的说明,他们都是二进制文件,格式分别如下:
我这里只做train_image的过程,其他几个文件类似。参照http://www.cnblogs.com/x1957/archive/2012/06/02/2531503.html
import struct
import numpy as np
import matplotlib.pyplot as plt
import Image
#二进制的形式读入
filename='/home/jack/Downloads/train-images.idx3-ubyte'
binfile=open(filename,'rb')
buf=binfile.read()
#大端法读入4个unsigned int32
#struct用法参见网站 http://www.cnblogs.com/gala/archive/2011/09/22/2184801.html
index=0
magic,numImages,numRows,numColumns=struct.unpack_from('>IIII',buf,index)
index+=struct.calcsize('>IIII')
#将每张图片按照格式存储到对应位置
for image in range(0,numImages):
im=struct.unpack_from('>784B',buf,index)
index+=struct.calcsize('>784B')
#这里注意 Image对象的dtype是uint8,需要转换
im=np.array(im,dtype='uint8')
im=im.reshape(28,28)
# fig=plt.figure()
# plotwindow=fig.add_subplot(111)
# plt.imshow(im,cmap='gray')
# plt.show()
im=Image.fromarray(im)
im.save('train/train_%s.bmp'%image,'bmp')
如此就成功了