CIFAR-10和CIFAR-100数据集说明

最新推荐文章于 2025-03-03 19:23:28 发布

Never-Giveup

最新推荐文章于 2025-03-03 19:23:28 发布

阅读量1.4w

点赞数 5

分类专栏： Pytorch框架文章标签：机器学习深度学习 Pytorch CIFAR-10 CIFAR-100

本文链接：https://blog.csdn.net/qq_36653505/article/details/87864405

版权

CIFAR-10和CIFAR-100是包含32x32彩色图像的分类数据集，各有10和100个类别。CIFAR-10有60K图像，分为5个训练批和1个测试批；CIFAR-100则有600个图像/类。数据集包括Python/Matlab版本和二进制版本，提供label_names映射。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

翻译自： http://www.cs.toronto.edu/~kriz/cifar.html

CIFAR-10和CIFAR-100是带有标签的数据集，它们是8000万个微小图像数据集的子集，他们由Alex Krizhevsky，Vinod Nair和Geoffrey Hinton收集。

CIFAR-10数据集

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。
数据集分为五个训练批次和一个测试批次，每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像，但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说，所有训练批组成的训练集，每一类都有5000张图。

以下是数据集中的类，以及来自每个类的10个随机图像：
在这里插入图片描述
这些类完全相互排斥。汽车和卡车之间没有重叠。“汽车”包括轿车，SUV，这类东西。“卡车”只包括大卡车。都不包括皮卡车。

CIFAR-10下载

共有三个版本

CIFAR-10 python版本  (http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz)
CIFAR-10 Matlab版本  (http://www.cs.toronto.edu/~kriz/cifar-10-matlab.tar.gz
CIFAR-10二进制版本（适用于C程序）(http://www.cs.toronto.edu/~kriz/cifar-10-binary.tar.gz)

Baseline results (基线结果？还不是很懂)

你可以在cuda-convert的项目页面上找到此数据集上的一些基线可复制的结果。这个结果是由CNN卷积神经网络得到的。简要的说，在没有数据扩充的情况下，测试误差为18%，反之为11%。
（emmm这段感觉关系不大。。。）

数据集布局

Python/Matlab 版本
该数据集文件包含data_batch1……data_batch5，和test_batch。他们都是由cPickle库产生的序列化后的对象（关于pickle,移步https://docs.python.org/3/library/pickle.html）。这里给出python2和python3的例程，他可以打开这样的pkl文件，返回一个字典结构的数据：

python2: