图像分类的数据集
1. MNIST
一般机器学习框架都使用MNIST作为入门,就像"Hello World"对于任何一门编程语言一样。
MNIST的全称是Modified National Institute of Standard and Technology.
参考文献:
[LeCun et al., 1998a]
Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. “Gradient-based learning applied to document recognition.” Proceedings of the IEEE, 86(11):2278-2324, November 1998. [on-line version]
Yann LeCun 是纽约大学教授、Facebook 副总裁和首席 AI 科学家,2018年图灵奖得主。
Yann LeCun在1998年提出卷积神经网络,并将MNIST的错误率下降到0.7%。
MNIST官网有各种不同方法在这个数据集上的性能。
目前MNIST官网上列出的最优算法是Ciresan et al. CVPR 2012,错误率为0.23%。下表是这篇论文的试验结果。
2. Fashion-MNIST
Fashion-MNIST 是一个替代 MNIST 手写数字集 的图像数据集。 它是由 Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。
Fashion-MNIST 的大小、格式和训练集/测试集划分与原始的 MNIST 完全一致,甚至文件名都完全一致。你可以直接用它替代原始的MNIST,且不需要改动任何的代码。
Why we made Fashion-MNIST?
In fact, MNIST is often the first dataset researchers try.
“If it doesn’t work on MNIST, it won’t work at all”, they said.
“Well, if it does work on MNIST, it may still fail on others.”
Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. [arXiv:1708.07747]
[github下载地址],github上有各种算法在Fashion-MNIST数据集上的性能测评。
[Fashion-MNIST: Year In Review] 数据集作者回顾了数据集发布一年来对业界的贡献。
3.CIFAR-10和CIFAR-100
CIFAR-10和CIFAR-100都出自于规模更大的一个数据集80 million tiny images dataset。这个是一个大项目,你可以点击那个big map提交自己的标签,可以帮助他们训练让计算机识别物体的模型)。在Kaggle上有关CIFAR-10的介绍。
Please cite this technical report if you use this dataset: Learning Multiple Layers of Features from Tiny Images, Alex Krizhevsky, 2009.
就像MNIST,CIFAR-10是在计算机视觉和机器学习文献中的另一个标准的基准数据集。
CIFAR-10数据集分为5个batch的训练集和1个batch的测试集,每个batch包含10,000张图片。每张图像尺寸为32*32的RGB图像,且包含有标签。一共有10个标签:airplane、automobile、bird、cat、deer、dog、frog、horse、ship、truck十个类别。
CIFAR-100这个数据集和cifar10类似,它有100个类,每个类包含600个图像,600个图像中有500个训练图像和100个测试图像。100类实际是由20个类(每个类又包含5个子类)构成(5*20=100)。
类型如下:
4. Caltech 101
2004年,李飞飞介绍了CALTECH 101数据集(加利福尼亚理工学院101类图像数据集)。该数据集作为目标检测的流行的基准数据集。通常用于目标检测(如预测图像中特定对象的包围框的(x,y)坐标),有标注目标框坐标(Outlines of the objects in the pictures)。我们也可以用CALTECH-101来研究深度学习。CALTECH-101具有极大的类别失衡,使得它可以用于类别失衡算法方面的研究。
之前的图像分类方法在CALTECH-101上的精确度在35%-65%之间。目前可以利用深度学习用于图像分类来达到99%的分类正确率。下面表格中是各种算法在这个数据集上的性能。
Table of results for Caltech 101 dataset
5. ImageNet
5.1 ImageNet是什么?
ImageNet是李飞飞教授的一个项目,旨在根据一组定义的单词和短语,将图像标记并分类到将近2.2万个类别中。
超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别。
为了管理如此多的数据,采用WordNet层次管理,在WordNet中的每个有意义的单词或短语称为同义词集(synet)。在InageNet中,图像依据这些synet组织,目标是每个synet包含1000+的图像。
相关博客:
华人包揽CVPR 2019最佳论文,李飞飞ImageNet成就经典
李飞飞总结 8 年 ImageNet 历史,宣布挑战赛最终归于 Kaggle
斯坦福大学李飞飞最新演讲:ImageNet后,我专注于这五件事
5.2 ILSVRC
在计算机视觉和深度学习背景下,当人们谈论ImageNet时,很可能他们谈到的是ImageNet Large Scale Visual Recognition Challenge或者简写的ILSVRC。
在这个挑战中图像分类的目标是训练一个模型,使用大概120万张图像用于训练,50000张用于验证,100000张用于测试,能够将图像分类到1000个不同的类别中。这1000个类别代表了我们日常生活中遇到的目标类别,如不同种类的狗、猫,不同的车辆等等。
自2010年以来,ImageNet项目每年举办一次软件比赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序竞相正确分类检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破,被广泛认为是深度学习革命的开始。自2012年以来,这项挑战的排行榜一直被CNNs和深度学习技术占据。从下图中可以看到,深度学习技术采用的神经网络层数越来越多,性能越来越好。2016年ILSVRC冠军的错误率是2.991%,低于人类的平均错误率5.1%。
6. 各个数据集上的最新进展
Classification datasets results:[What is the class of this image ?]
其他参考资料
更多图像分类的数据集
上面这个博客中不是简单罗列所有的数据集,而是详细讲解了每个数据集的特点,应用场景,发展历史。