cifar-10 数据集说明及下载

cifar-10 数据集说明及下载

数据集组成

本数据及包含了6万张分辨率为32x32的图片,一共分为了10类,分别为:

  • 飞机
  • 汽车
  • 鹿
  • 青蛙
  • 货车

其中,5万张作为训练集,1万张作为测试机。
训练集被分为了5批训练和1批测试。每一批都是1万张。

  • 测试集是从每一种分类中随机抽取出来1000张组成。
  • 训练集从10个分类中各自随机抽取5000张,一共5万张。

下载

国内环境下载太慢了,而且官方提供的那个sh脚本还只能使用linux运行, 因此这里放出在CSDN上的下载链接:
点击这里跳转下载链接

使用

权威结果

说是权威也不能这么说,只是官方给出的一个基准结果,可以使用这些作为参照:
结果列表
这些都是用卷积神经网络做出来的,简要地说,如果没有数据增强,错误率为18%,有的话错误率为11%。
另外 Jasper Snoek在 这篇文章里使用了贝叶斯超参数最优化技巧,使之能够找到权重的最佳值以及其他超参数,经过这样的处理,在不使用数据增强的情况下, 他的错误率也降低到了15%。

数据的结构

首先看一下数据集解压之后的样子:
数据集解压结果
那些没有后缀名的文件,其实都是用python的cpickle库打包好的,这个库就是用来将python中的变量原封不动地存到本地使用的,当再次使用的时候,可以读取出来。
有经验的朋友会自动和json.dumps联系起来,其实json模块只能保存一个字典到本地的json文件,而pickle模块(或者cpickle却可以打包任何对象).
python3环境下读取数据:

def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        dict = pickle.load(fo, encoding='bytes')
    return dict

这样不就得到了一个字典文件了吗?
每个字典如下表所示:

data一个10000x3072的numpy数组,每一行都存储着一个分辨率为32x32的图片
labels标签,长度是10000,每个都是0-9的数字,是一个列表。其索引和data里面的索引相互对应。

颜色图解

除此之外还有一个文件是batches.meta,这个文件保存的就是索引与名字之间的对应。如:label_names[0] == “airplane”, label_names[1] == “automobile”

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MichaelToLearn

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值