Numpy学习（2）：将cifar10/100数据文件读入到python数据结构（字典）中

最新推荐文章于 2024-06-27 10:55:55 发布

name_s_Jimmy

最新推荐文章于 2024-06-27 10:55:55 发布

阅读量8k

点赞数 4

分类专栏： Python 文章标签： python 数据结构 cifar10

本文链接：https://blog.csdn.net/qq_32166627/article/details/62043568

版权

Python 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

前言：

cifar10，cifar100是2个比较常用的图像分类数据库，官网地址，从官网下载的数据已经不是原始图片啦，而是经过数值化的numpy数组。那么这些数组究竟是什么样的？如果有一个直观的感受，以后不管是用机器学习算法还是深度学习算法，对于算法的理解都很有帮助。

下面这段代码详细说明了图片数据是怎样一个存储方式，下面代码使用python3.x版本以及pickle的库，跑出来结果一目了然。

正文

闲话少说，请看代码：

'''
    首先把官网的python版本数据下载保存到本地
'''
file1 = 'E:/pythonProjects/dataSets/cifar-10-batches-py/data_batch_1'
file2 = 'E:/pythonProjects/dataSets/cifar-10-batches-py/batches.meta'
file3 = 'E:/pythonProjects/dataSets/cifar-10-batches-py/test_batch'


def unpickle(file):  # 该函数将cifar10提供的文件读取到python的数据结构(字典)中
    import pickle
    fo = open(file, 'rb')
    dict = pickle.load(fo,encoding='iso-8859-1')
    fo.close()
    return dict

dict_train_batch1 = unpickle(file1) # 将data_batch文件读入到数据结构(字典)中

print(dict_train_batch1) # 每个batch是一个字典
print(dict_train_batch1.keys())  # 字典里有4组键值对

'''
    trainSet字典里有4组键值对
    1，batch_label ：表明batch的位置,没什么用
    2，data ：32*32图片的数值化数组，是一个10000*3072的numpy二维数组,
              每一行代表一张图片，一行分3段(红绿蓝色道)，每段1024个元素。
    3，labels ：data每一行对应的标签（数字0-9），是个一维数组，10000个元素
    4，filenames ： data每一行对应的文件名，同是一个一维数组，10000个元素
'''
data_train_batch1 = dict_train_batch1.get('data') # 字典中取data
print(data_train_batch1)

labels = dict_train_batch1.get('labels') # 字典中取labels
print(labels)

filenames = dict_train_batch1.get('filenames') # 字典中取filenames
print(filenames)


print('--------------我是分割线---------------------------------')


dict_test_batch = unpickle(file3)
print(dict_test_batch)
print(dict_test_batch.keys())
'''
    跟trainSet中一样，testSet中有相同的4组键值对
    说明同上
'''

print('--------------我是分割线---------------------------------')


'''
    batches.meta是一个字典，其中包含了一个列表，列表中是10种分类的具体名称
    一般这个文件用不到
'''
dict_meta_batch = unpickle(file2)
print(dict_meta_batch)