书写数字数据集mnist的制作
一、目标
将数据集制作成和我们之前到dataset里下载的数据集格式一样,即测试集和训练集的输入特征与标签一一对应,而且要令输入特征是数组形式(因为像mnist数据,我们最原始的输入特征是图片,我们要将图片转化成与它像素值大小相同的数组如28*28)。
二、准备条件
准备条件,也就是在自制数据集前我们应该有什么。我们应该有:
1.一个x_train文件夹和一个x_test文件夹,这两个文件夹里放的分别是训练集的图片(如60000张图片)和测试集的图片(如10000张图片)。
2.一个y_train.txt和y_test.txt两个txt文本文件,这两个文本文件中是每一行里有一张图片名称和该图片对应的标签,如:
0.jgp 5
1.jpg 2
.
.
.
等等
三、编写函数
定义一个函数如generateds(),里面有两个参数,第一个参数是存放x_train(或者是x_test)文件夹的路径,第二个参数是存放y_train(或者是y_test)文本文件的路径:
generateds(path, txt)
代码为:
def generateds(path, txt):
f = open(txt, 'r') # 以只读形式打开txt文件
contents = f.readlines() # 读取文件中所有行
f.close() # 关闭txt文件
x, y_ = [], [] # 建立空列表
for content in contents: # 逐行取出
value = content.split() # 以空格分开,图片路径为value[0] , 标签为value[1] , 存入列表
img_path = path + value[0] # 拼出图片路径和文件名
img = Image.open(img_path) # 读入图片
img = np.array(img.convert('L')) # 图片变为8位宽灰度值的np.array格式,模式L为灰色图像,它的每个像素用8个bit表示,也就是0-255,0表示黑,255表示白
img = img / 255. # 数据归一化 (实现预处理)
x.append(img) # 归一化后的数据,贴到列表x
y_.append(value[1]) # 标签贴到列表y_
print('loading : ' + content) # 打印状态提示
x = np.array(x) # 变为np.array格式
y_ = np.array(y_) # 变为np.array格式
y_ = y_.astype(np.int64) # 变为64位整型
return x, y_