python3 读取0x00_Python3读取深度学习CIFAR-10数据集出现的若干问题解决

最新推荐文章于 2023-04-30 17:56:32 发布

weixin_39607837

最新推荐文章于 2023-04-30 17:56:32 发布

阅读量229

点赞数

文章标签： python3 读取0x00

本文链接：https://blog.csdn.net/weixin_39607837/article/details/111766774

版权

在尝试使用Python3读取CIFAR-10数据集时遇到了'gbk'编码错误和内存错误。通过将文件打开模式改为'rb'并设置`pickle.load`的encoding参数为'latin1'解决了编码问题。内存问题通过限制加载批次数量得到缓解。

摘要由CSDN通过智能技术生成

今天在看网上的视频学习深度学习的时候，用到了CIFAR-10数据集。当我兴高采烈的运行代码时，却发现了一些错误：

# -*- coding: utf-8 -*-

import pickle as p

import numpy as np

import os

def load_CIFAR_batch(filename):

""" 载入cifar数据集的一个batch """

with open(filename, 'r') as f:

datadict = p.load(f)

X = datadict['data']

Y = datadict['labels']

X = X.reshape(10000, 3, 32, 32).transpose(0, 2, 3, 1).astype("float")

Y = np.array(Y)

return X, Y

def load_CIFAR10(ROOT):

""" 载入cifar全部数据 """

xs = []

ys = []

for b in range(1, 6):

f = os.path.join(ROOT, 'data_batch_%d' % (b,))

X, Y = load_CIFAR_batch(f)

xs.append(X)

ys.append(Y)

Xtr = np.concatenate(xs)

Ytr = np.concatenate(ys)

del X, Y

Xte, Yte = load_CIFAR_batch(os.path.join(ROOT, 'test_batch'))

return Xtr, Ytr, Xte, Yte

错误代码如下：

'gbk' codec can't decode byte 0x80 in position 0: illegal multibyte sequence

于是乎开始各种搜索问题，问大佬，网上的答案都是类似：

然而并没有解决问题！还是错误的！(我大概搜索了一下午吧，都是上面的答案)

哇，就当我很绝望的时候，我终于发现了一个新奇的答案，抱着试一试的态度，尝试了一下：

def load_CIFAR_batch(filename):

""" 载入cifar数据集的一个batch """

with open(filename, 'rb') as f:

datadict = p.load(f, encoding='latin1')

X = datadict['data']

Y = datadict['labels']

X = X.reshape(10000, 3, 32, 32).transpose(0, 2, 3, 1).astype("float")

Y = np.array(Y)

return X, Y

竟然成功了，这里没有报错了！欣喜之余，我就很好奇，encoding=’latin1’到底是啥玩意呢，以前没有见过啊？于是，我搜索了一下，了解到：

Latin1是ISO-8859-1的别名，有些环境下写作Latin-1。ISO-8859-1编码是单字节编码，向下兼容ASCII，其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号。

因为ISO-8859-1编码范围使用了单字节内的所有空间，在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之，把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是个很重要的特性，MySQL数据库默认编码是Latin1就是利用了这个特性。ASCII编码是一个7位的容器，ISO-8859-1编码是一个8位的容器。

还没等我高兴起来，运行后，又发现了一个问题：

memory error

什么鬼？内存错误！哇，原来是数据大小的问题。

X = X.reshape(10000, 3, 32, 32).transpose(0,2,3,1).astype("float")

这告诉我们每批数据都是10000 * 3 * 32 * 32，相当于超过3000万个浮点数。 float数据类型实际上与float64相同，意味着每个数字大小占8个字节。这意味着每个批次占用至少240 MB。你加载6这些(5训练+ 1测试)在总产量接近1.4 GB的数据。

for b in range(1,2):

f = os.path.join(ROOT, 'data_batch_%d' % (b,))

X, Y = load_CIFAR_batch(f)

xs.append(X)

ys.append(Y)

所以如有可能，如上代码所示只能一次运行一批。

到此为止，错误基本搞定，下面贴出正确代码：