读取一个目录下众多文件中的数据的方法（2019/7/19学习总结）

最新推荐文章于 2022-11-27 15:25:47 发布

笔尾树鼩

最新推荐文章于 2022-11-27 15:25:47 发布

阅读量367

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_42845036/article/details/96505996

版权

本文总结了如何从目录 './digits/trainingDigits/' 和 './digits/testDigits/' 中读取并处理手写数字的训练和测试数据。每个文件包含32*32的二进制图像，通过定义函数转换成1*1024的数组。利用os库的listdir方法获取文件列表，并通过文件名切分获取目标变量。最后，将数据转换为array格式，为后续数据分析做准备。

摘要由CSDN通过智能技术生成

手写识别系统
在：./digits/trainingDigits/ 目录中包含了约2000个训练数据，目标变量为每个文件的开头的第一个数字（每个文件名为类似"0_0.txt"的形式，每个文件为32*32的二进制图像，每个数字大约有200个左右的样本）
在：./digits/testDigits/ 目录中包含了约900个的测试数据，格式同上。

先定义一个函数，将文件中的32 * 32转换成1 * 1024的数组：

def img2vector(filename):
    returnVect = np.zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

注意，这里用到了一个readline方法，是一行一行的读取，再次调用这个函数会自动读取下一行。

之后要把所有数据读取出来并且转换成可以使用的数据类型：

from os import listdir
def handwritingClassTest():
    tfl = listdir('./digits/trainingDigits/')
    m = len(tfl)
    X_train = []
    y_train = []
    for i in range(m):
        fns = tfl[i]
        fs = fns.split('.')[0]