加载MNIST数据集

Lucid1024

已于 2022-02-25 10:04:56 修改

阅读量1.9k

点赞数 1

分类专栏：机器学习文章标签：机器学习

于 2022-02-22 10:16:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lucid1024/article/details/123062197

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

对于分类任务，用到的数据集是MNIST。该数据集由7w张手写数字图片构成。

加载数据集

from sklearn.datasets import fetch_openml
mnist=fetch_openml('mnist_784', version=1)
mnist.keys()

如果报错cannot import name 'fetch_openml'，可能是scikit-learn版本过低，需要升级到0.2版本以上。

升级sklearn

方法1：

在Anaconda Prompt中：

conda update scikit-learn

方法2：

下载scikit-learn包：

https://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn

我的Python版本是3.6.1，因此选择cp36m的。

然后在Anaconda Prompt中：

pip install D:\python机器学习\scikit_learn-0.24.0-cp36-cp36m-win_amd64.whl

查看实例

sklearn加载的数据集通常包括data键和target键。

查看这两个数组：

X,y=mnist['data'], mnist['target']

X.shape

y.shape

其中X表示data键，y表示target键（即标签）。

随机查看一个实例：

import matplotlib as mpl

import matplotlib.pyplot as plt

some_digit=X[0]

some_digit_image=some_digit.reshape(28,28)

plt.imshow(some_digit_image, cmap='binary')

plt.axis('off')

plt.show()

查看其标签：

y[0]

标签是字符型，可以将其转换成整数型：

y=y.astype(np.uint8)

创建训练集和测试集

在MNIST数据集中，前6w张图片是训练集，后1w张图片是测试集。因此：

X_train, X_test, y_train, y_test=X[:60000], X[60000:], y[:60000], y[60000:]

由于并非时间序列数据，因此可以将训练集的数据进行混洗。

训练模型

先训练一个二元分类器，目标是识别数字5，即将数字分为“5”和“非5”两个类别。

创建目标变量：

y_train_5=(y_train==5)
y_test_5=(y_test==5)

使用SGD分类器进行训练：

from sklearn.linear_model import SGDClassifier

sgd_clf=SGDClassifier(random_state=42)
sgd_clf.fit(X_train, y_train_5)

SGD即随机梯度下降，适合处理大型数据集。

进行预测：

sgd_clf.predict([some_digit])

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
加载MNIST数据集

MNIST数据集的加载，SGD分类器的训练。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。