【文献阅读】Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms

最新推荐文章于 2025-04-09 15:29:05 发布

TensorSense

最新推荐文章于 2025-04-09 15:29:05 发布

阅读量5.1k

点赞数 3

分类专栏：文献阅读 deep-learning 文章标签：机器学习 dataset MNIST

本文链接：https://blog.csdn.net/u011995719/article/details/77834375

版权

deep-learning 同时被 2 个专栏收录

35 篇文章

订阅专栏

文献阅读

27 篇文章

订阅专栏

文章目录

推荐阅读：数据制作

paper 地址：https://arxiv.org/abs/1708.07747
数据集下载：https://github.com/zalandoresearch/fashion-mnist
上个月底突然被Fashion-MNIST刷屏，于是乎看看这个数据集是个什么样的数据集。

命名技巧：

Fashion-MNIST其命名很有技巧，“蹭”了MNIST，要不然也火不了。就像JAVAsript 的命名，JAVAsript和JAVA没啥关系，就是“蹭”热度，起个好名字啊！引用知乎的图片：
这里写图片描述

项目目的：

制作这个数据集的目的就是取代MNIST，作为机器学习算法良好的“检测器”，用以评估各种机器学习算法。为什么不用MNIST了呢？因为MNIST就现在的机器学习算法来说，是比较好分的，很多机器学习算法轻轻松松可以达到99%，因此无法区分出各类机器学习算法的优劣。
为了和MNIST兼容，Fashion-MNIST 与MNIST的格式，类别，数据量，train和test的划分，完全一致。

数据源：

paper中提到，数据来源于Zalando’s website . 这是什么鬼？查了一下才知道，Zalando是德国的电商，其主要产品是服装和鞋类。再一看作者，是Zalando研究部门的，好吧。可不可以认为是打广告呢！剩下一大笔广告费啊！作者是华人：肖涵。
数据来自不同gender group： men women kids and neutral ；并且，不包含白色的商品，因为白色商品与背景的对比度较低。

类别如下：

标注编号	描述
0	T-shirt/top（T恤）
1	Trouser（裤子）
2	Pullover（套衫）
3	Dress（裙子）
4	Coat（外套）
5	Sandal（凉鞋）
6	Shirt（汗衫）
7	Sneaker（运动鞋）
8	Bag（包）
9	Ankle boot（踝靴）

-----------------------------------------------分割线----------------------------------------------------

名称	描述	样本数量	文件大小	链接
`train-images-idx3-ubyte.gz`	训练集的图像	60,000	26 MBytes	下载
`train-labels-idx1-ubyte.gz`	训练集的类别标签	60,000	29 KBytes	下载
`t10k-images-idx3-ubyte.gz`	测试集的图像	10,000	4.3 MBytes	下载
`t10k-labels-idx1-ubyte.gz`	测试集的类别标签	10,000	5.1 KBytes	下载

数据制作：

在paper中有一点比较值得学习，就是图片如何制作成 2828的灰度图的过程，可以借鉴此种方法来对自己的图片进行“resize”。
最原始图片是背景为浅灰色的，分辨率为7621000 的JPEG图片。然后经过resampled 到 5173 的彩色图片。然后依次经过以下7个步骤，最终得到2828的灰度图
这里写图片描述