第一步下载mnist.pkl.gz,将其解压缩得到一个mnist.pkl文件夹里面有一个mnist.pkl文件。
接下来是其详细提取过程
首先使用pickle将文件反序列化,标注‘rb’防止UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 0: illegal multibyte sequence报错。encoding='latin1'读取防止UnicodeDecodeError: 'ascii' codec can't decode byte 0x90 in position 614: ordinal not in range(128)报错
import pickle
import numpy as np
# 文件路径
file_path = r'mnist.pkl/mnist.pkl'
# 加载解压后的 mnist.pkl 文件
with open(file_path, 'rb') as f:
data = pickle.load(f, encoding='latin1')
# 打印数据结构
print(type(data))
print(len(data))
for i, item in enumerate(data):
print(f"Item {i}: {type(item)}")
print(f"Length of Item {i}: {len(item)}")
# 解包数据
(train_images, train_labels), (valid_images, valid_labels), (test_images, test_labels) = data
# 使用 train_images, train_labels, valid_images, valid_labels, test_images, test_labels 进行训练和测试
print(train_images.shape) # 查看训练图像的形状
print(train_labels.shape) # 查看训练标签的形状
print(valid_images.shape) # 查看验证图像的形状
print(valid_labels.shape) # 查看验证标签的形状
print(test_images.shape) # 查看测试图像的形状
print(test_labels.shape) # 查看测试标签的形状
接下来是结果
<class 'tuple'>
3
Item 0: <class 'tuple'>
Length of Item 0: 2
Item 1: <class 'tuple'>
Length of Item 1: 2
Item 2: <class 'tuple'>
Length of Item 2: 2
(50000, 784)
(50000,)
(10000, 784)
(10000,)
(10000, 784)
(10000,)
结果是包含三个元组的一个大元组,三个元组分别是训练集,验证集和测试集。训练集包含50000个图片。和每个图片28*28 = 784个像素,和50000个标签。同理验证集和测试集分别包含10000个图片。和每个图片28*28 = 784个像素,和10000个标签。
接下来是简单查看数据集,使用matplotlib.pyplot查看图像,注意需要将样本reshape(28,-1)及(28,28)的格式(‘28’行,‘-1’为占位符,表示自动计算列数)
import matplotlib.pyplot as plt
s = train_images[1]
s = s.reshape(28,-1)
plt.imshow(s)
print(train_labels[1])
结果: 0
之后是数据集的使用,以sklearn中的神经网络MLPClassifier模型为例,MLPClassifier是神经网络的分类模型通常用于二分类或多分类问题。
from sklearn.neural_network import MLPClassifier
clf = MLPClassifier(hidden_layer_sizes=(100, 50), max_iter=1000, alpha=0.0001, solver='adam', random_state=42)
clf.fit(train_images, train_labels)
print(clf.score(test_images, test_labels))
结果:0.9763