mnist database(手写字符识别) 的数据集下载地:http://yann.lecun.com/exdb/mnist/。
共有四个文件需要下载:
- train-images-idx3-ubyte.gz,训练集,共 60,000 幅(28*28)的图像数据;
- train-labels-idx1-ubyte.gz,训练集的标签信息(取值为 0-9),60,000*1
- t10k-images-idx3-ubyte.gz,测试集(t: test, 10k: 10,000),共 10,000 副(28*28)的图像数据
- t10k-labels-idx1-ubyte.gz,测试集的标签呢信息(取值为 0-9),10,000*1
文件名中的 ubyte 表示数据类型,无符号的单字节类型,对应于 matlab 中的 uchar 数据类型。
注:在 Windows 平台下解压这些文件时,操作系统会自动修改这些文件的文件名,比如会将倒数第二个短线-
修改为.
,也即 train-images-idx3-ubyte.gz
解压为train-images.idx3-ubyte
(文件类型就