文件遍历是数据处理中最为基本的一部分。我们使用python的os模块,os里面有个walk函数可以以列表形式返回文件夹的父文件夹,里面所含文件夹以及它所含的文件。从而可以实现数据的遍历读取。
#! /bin/python
import os
import sys
import os.path
dirroot = "G:\\data_to_resolve\\"
line_num = 0
#parent是父文件夹;dirnames是dirroot所含文件夹;
for parent,dirnames,filenames in os.walk(dirroot):
print ("进入文件夹:" + dirroot)
for filename in filenames:
file = dirroot + filename
print ("读取" + file)
fin = open(file,'r')
for lines in fin:
line_num += 1
if line_num % 10000 == 0:
print line_num
fin.close()
file_destin = dirroot + "line_num.txt"
fout = open(file_destin,'w')
fout.write("文件数" + '\t' + line_num)
fout.close()