【文献阅读】Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms


推荐阅读:数据制作

paper 地址:https://arxiv.org/abs/1708.07747
数据集下载:https://github.com/zalandoresearch/fashion-mnist
上个月底突然被Fashion-MNIST刷屏,于是乎看看这个数据集是个什么样的数据集。

命名技巧:

Fashion-MNIST其命名很有技巧,“蹭”了MNIST,要不然也火不了。就像JAVAsript 的命名,JAVAsript和JAVA没啥关系,就是“蹭”热度,起个好名字啊!引用知乎 的图片:
这里写图片描述

项目目的:

制作这个数据集的目的就是取代MNIST,作为机器学习算法良好的“检测器”,用以评估各种机器学习算法。为什么不用MNIST了呢? 因为MNIST就现在的机器学习算法来说,是比较好分的,很多机器学习算法轻轻松松可以达到99%,因此无法区分出各类机器学习算法的优劣。
为了和MNIST兼容,Fashion-MNIST 与MNIST的格式,类别,数据量,train和test的划分,完全一致。

数据源:

paper中提到,数据来源于Zalando’s website . 这是什么鬼? 查了一下才知道,Zalando是德国的电商, 其主要产品是服装和鞋类。再一看作者,是Zalando研究部门的,好吧。可不可以认为是打广告呢!剩下一大笔广告费啊!作者是华人:肖涵。
数据来自不同gender group: men women kids and neutral ;并且,不包含白色的商品,因为白色商品与背景的对比度较低。

类别如下:

标注编号描述
0T-shirt/top(T恤)
1Trouser(裤子)
2Pullover(套衫)
3Dress(裙子)
4Coat(外套)
5Sandal(凉鞋)
6Shirt(汗衫)
7Sneaker(运动鞋)
8Bag(包)
9Ankle boot(踝靴)

-----------------------------------------------分割线----------------------------------------------------

名称描述样本数量文件大小链接
train-images-idx3-ubyte.gz训练集的图像60,00026 MBytes下载
train-labels-idx1-ubyte.gz训练集的类别标签60,00029 KBytes下载
t10k-images-idx3-ubyte.gz测试集的图像10,0004.3 MBytes下载
t10k-labels-idx1-ubyte.gz测试集的类别标签10,0005.1 KBytes下载

数据制作:

在paper中有一点比较值得学习,就是图片如何制作成 2828的灰度图的过程,可以借鉴此种方法来对自己的图片进行“resize”。
最原始图片是背景为浅灰色的,分辨率为762
1000 的JPEG图片。然后经过resampled 到 5173 的彩色图片。然后依次经过以下7个步骤,最终得到2828的灰度图
这里写图片描述

  1. JPEG --> PNG
  2. 裁剪背景
  3. 按比例: m a x ( h , w ) 28 \frac{max(h,w)}{28} 28max(h,w) 将图像缩放,也就是将一个维度缩放至28
  4. 锐化
  5. 再扩充至28*28,再把object调整至图片中央
  6. 将所有像素点取反,即 255-intensity (感谢网友Jing_xian的指正)
  7. 转化成28*28的灰度图

这一套方法觉得比平时仅采用resize或许会好,可以考虑尝试

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值