感性认识 mnist 数据集

最新推荐文章于 2024-09-06 23:28:04 发布

freetuream

最新推荐文章于 2024-09-06 23:28:04 发布

阅读量508

点赞数 1

分类专栏： Python 机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/freetureAI/article/details/82908906

版权

Python 同时被 2 个专栏收录

16 篇文章

订阅专栏

机器学习

1 篇文章

订阅专栏

mnist数据集包含四部分：

用于训练的图片集(Training set images)：6W样本
用于训练的标签集(Training set labels)：6W样本
用于测试的图片集(Test set images)：1W样本
用于测试的标签集(Test set labels)：1W样本

关于图片集(set images)：

训练集：共6W张图片，每张图片由28✖️28个像素点（共784个）构成，每个像素点仅有一个灰度值。
测试集：共1W张图片，每张图片由28✖️28个像素点（共784个）构成，每个像素点仅有一个灰度值。

关于标签集(set labels):

标记每一张图片对应的真实值，由此可以推断（事实也是如此！）：训练标签集共有6W个元素（对应于训练集中的6W张图片），测试标签集共有1W个元素（对应于测试集中的1W张图片），其取值大小是0～9中的一个整数。

名词解释

灰度值：指类黑白相机拍出的图像的像素点的值，取0～255。

边操作边了解mnist

1. 下载地址

下载地址

2. 用Python感受一下图片训练集中的数据存储形式：

>>> import gzip
>>> import numpy as np
>>> with gzip.open("./train-images-idx3-ubyte.gz",'rb') as f:
...     data = np.frombuffer(f.read(), np.uint8, offset=16)
... 
>>> data = data.reshape(-1, 784)
>>> data #将一维数据展开，每一行记载着一张图片的像素点， 但从结果看，感受不大
array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=uint8)
>>> data.shape # 看一下矩阵的形状， 确实是有6W张样本图， 每个图有784个像素点
(60000, 784)
>>> data[0] # 任意取一张图，感受一下784个像素点的取值
array([  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   3,  18,  18,  18,
       126, 136, 175,  26, 166, 255, 247, 127,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,  30,  36,  94, 154, 170, 253,
       253, 253, 253, 253, 225, 172, 253, 242, 195,  64,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,  49, 238, 253, 253, 253,
       253, 253, 253, 253, 253, 251,  93,  82,  82,  56,  39,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,  18, 219, 253,
       253, 253, 253, 253, 198, 182, 247, 241,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
        80, 156, 107, 253, 253, 205,  11,   0,  43, 154,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,  14,   1, 154, 253,  90,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0, 139, 253, 190,   2,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,  11, 190, 253,  70,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,  35,
       241, 225, 160, 108,   1,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,  81, 240, 253, 253, 119,  25,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,  45, 186, 253, 253, 150,  27,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,  16,  93, 252, 253, 187,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0, 249,
       253, 249,  64,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,  46, 130,
       183, 253, 253, 207,   2,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,  39, 148,
       229, 253, 253, 253, 250, 182,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,  24, 114,
       221, 253, 253, 253, 253, 201,  78,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,  23,  66,
       213, 253, 253, 253, 253, 198,  81,   2,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,  18, 171,
       219, 253, 253, 253, 253, 195,  80,   9,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,  55, 172,
       226, 253, 253, 253, 253, 244, 133,  11,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
       136, 253, 253, 253, 212, 135, 132,  16,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0], dtype=uint8)

3. 取出第一张图片看一下，感受一下（代码接上）：

>>> from PIL import Image
>>> img = data[0].reshape(28, 28)
>>> pil_img = Image.fromarray(np.uint8(img))
>>> pil_img.show()

结果：
在这里插入图片描述

4. 用Python感受一下图片标签集中的数据存储形式（代码接上）：

>>> with gzip.open("./train-labels-idx1-ubyte.gz",'rb') as f:
...     data = np.frombuffer(f.read(), np.uint8, offset=8)
... 
>>> data.shape # 确实是6W个数据点，每个数据标记图片集中的一张图片， 故称为标签
(60000,)
>>> set(data) # 每个数据取0～9中的一个
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
>>>