1、Tiny Images Dataset
链接:http://horatio.cs.nyu.edu/mit/tiny/data/index.html
这是一个非常大的图像数据集,大约有近8000万张图片,每个图像为32x32彩色图像。 这些数据以大型二进制文件的形式存储,可以通过他们编写的Matlab工具箱加入。 您将需要大约400Gb的可用磁盘空间来存储所有文件。 总共有5个文件需要下载,其中3个是大型二进制文件,包括(i)图像本身; (ii)其相关元数据(文件名,使用的搜索引擎,排名等); (iii)每个图像的要点描述符。 另外两个文件是Matlab工具箱和索引数据文件,它们可以让您轻松地从二进制文件中加载数据。。
2、CIFAR-10 dataset
链接:CIFAR-10 and CIFAR-100 datasets
CIFAR-10 dataset是数据集1的子集。CIFAR-10数据集由10个类中的60000个32x32彩色图像组成,每个类有6000个图像。 有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次,每个批次有10000个图像。 测试批次包含来自每个类别的1000个随机选择的图像。 训练批次以随机顺序包含剩余图像,但是一些训练批次可能包含来自一个类别的更多图像而不是另一个类别。 在他们之间,训练批次包含来自每个类别的5000个图像。
如下就是数据集的分类图:
3、CIFAR-100 dataset
链接:CIFAR-10 and CIFAR-100 datasets(同上,在下面)
此数据集与CIFAR-10类似,不同之处在于它有100个类,每个类包含600个图像。 每个类别有500个训练图像和100个测试图像。 CIFAR-100中的100个类被分为20个超类。 每个图像都带有一个“精细”标签(它所属的类)和一个“粗”标签(它所属的超类)。
如果想使用CIFAR-10数据集训练图像分类模型,可以参考图书《深度学习计算机视觉实战》第八章案例。
《深度学习计算机视觉实战》一书由刘东研究员和肖铃合作完成,由电子工业出版社出版。
该书从算法导读到模型训练,到模型部署一站式搞定,书中案例注释详细,均已通过运行验证。该书包括4个部分:
第一部分(1~2章)深度学习和计算机视觉的基础和算法讲解;
第二部分(3~6章)传统图像处理算法的案例讲解;
第三部分(7-11章)计算机视觉方向的案例讲解;
第四部分(12~13章)Tensorflow Lite讲解(源码分析、模型优化、模型转换等)以及使用Tensorflow Lite在PC端和移动端的部署案例讲解。
本书可以为计算机视觉入门的读者和想要对模型进行工程部署的读者提供参考与帮助。京东链接:京东网上商城https://u.jd.com/rwk3HPT
本博客开设了”深度学习计算机视觉实战“专栏,有兴趣的朋友欢迎访问并分享给您的朋友。
欢迎关注公众号”计算机视觉与OpenCV“,本号不定期会发出赠书活动。
欢迎加入QQ群**”187042448“**获取更多的软件编程、AI、机器学习、深度学习的资料。