CIFAR-10和CIFAR-100数据集说明

CIFAR-10和CIFAR-100是包含32x32彩色图像的分类数据集,各有10和100个类别。CIFAR-10有60K图像,分为5个训练批和1个测试批;CIFAR-100则有600个图像/类。数据集包括Python/Matlab版本和二进制版本,提供label_names映射。
摘要由CSDN通过智能技术生成

翻译自: http://www.cs.toronto.edu/~kriz/cifar.html

CIFAR-10和CIFAR-100是带有标签的数据集,它们是8000万个微小图像数据集的子集,他们由Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集。

CIFAR-10数据集

CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。
数据集分为五个训练批次和一个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像,但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说,所有训练批组成的训练集,每一类都有5000张图。

以下是数据集中的类,以及来自每个类的10个随机图像:
在这里插入图片描述
这些类完全相互排斥。汽车和卡车之间没有重叠。“汽车”包括轿车,SUV,这类东西。“卡车”只包括大卡车。都不包括皮卡车。

CIFAR-10下载

共有三个版本

CIFAR-10 python版本  (http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz)
CIFAR-10 Matlab版本  (http://www.cs.toronto.edu/~kriz/cifar-10-matlab.tar.gz
CIFAR-10二进制版本(适用于C程序)(http://www.cs.toronto.edu/~kriz/cifar-10-binary.tar.gz)
Baseline results (基线结果?还不是很懂)

你可以在cuda-convert的项目页面上找到此数据集上的一些基线可复制的结果。这个结果是由CNN卷积神经网络得到的。简要的说,在没有数据扩充的情况下,测试误差为18%,反之为11%。
(emmm这段感觉关系不大。。。)

数据集布局

Python/Matlab 版本
该数据集文件包含data_batch1……data_batch5,和test_batch。他们都是由cPickle库产生的序列化后的对象(关于pickle,移步https://docs.python.org/3/library/pickle.html)。这里给出python2和python3的例程,他可以打开这样的pkl文件,返回一个字典结构的数据:

python2:

def unpickle(file)<
  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值