60000个训练样本和10000个测试样本下载地址:
http://yann.lecun.com/exdb/mnist/
不过下载下来的文件并不是csv格式的,panda依赖库有函数可以直接读取这样子的数据格式,但若是需要打开文件看看里面的数据分布,可以把文件转换为csv格式的
转换代码:
def convert(imgf, labelf, outf, n):
f = open(imgf, "rb")
o = open(outf, "w")
l = open(labelf, "rb")
f.read(16)
l.read(8)
images = []
for i in range(n):
image = [ord(l.read(1))]
for j in range(28*28):
image.append(ord(f.read(1)))
images.append(image)
for image in images:
o.write(",".join(str(pix) for pix in image)+"\n")
f.close()
o.close()
l.close()
convert("train-images.idx3-ubyte", "train-labels.idx1-ubyte",
"mnist_train.csv", 60000)
convert("t10k-images.idx3-ubyte", "t10k-labels.idx1-ubyte",
"mnist_test.csv", 10000)
转化完成之后,每一行第一个数代表标签。即0,1,2,3,4,5这些,后面有的等于786个数据为像素值。