读取一个目录下众多文件中的数据的方法(2019/7/19学习总结)

本文总结了如何从目录 './digits/trainingDigits/' 和 './digits/testDigits/' 中读取并处理手写数字的训练和测试数据。每个文件包含32*32的二进制图像,通过定义函数转换成1*1024的数组。利用os库的listdir方法获取文件列表,并通过文件名切分获取目标变量。最后,将数据转换为array格式,为后续数据分析做准备。
摘要由CSDN通过智能技术生成

手写识别系统
在:./digits/trainingDigits/ 目录中包含了约2000个训练数据,目标变量为每个文件的开头的第一个数字(每个文件名为类似"0_0.txt"的形式,每个文件为32*32的二进制图像,每个数字大约有200个左右的样本)
在:./digits/testDigits/ 目录中包含了约900个的测试数据,格式同上。

先定义一个函数,将文件中的32 * 32转换成1 * 1024的数组:

def img2vector(filename):
    returnVect = np.zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

注意,这里用到了一个readline方法,是一行一行的读取,再次调用这个函数会自动读取下一行。

之后要把所有数据读取出来并且转换成可以使用的数据类型:

from os import listdir
def handwritingClassTest():
    tfl = listdir('./digits/trainingDigits/')
    m = len(tfl)
    X_train = []
    y_train = []
    for i in range(m):
        fns = tfl[i]
        fs = fns.split('.')[0]
   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值