1.遍历文件夹
2.查找中文字符
3.遍历文件夹,并将文件中中文写入文件
- import os
- import os.path
- rootdir = “d:\data” # 指明被遍历的文件夹
-
- for parent,dirnames,filenames in os.walk(rootdir): #三个参数:分别返回1.父目录 2.所有文件夹名字(不含路径) 3.所有文件名字
- for dirname in dirnames: #输出文件夹信息
- print "parent is:" + parent
- print "dirname is" + dirname
-
- for filename in filenames: #输出文件信息
- print "parent is": + parent
- print "filename is:" + filename
- print "the full name of the file is:" + os.path.join(parent,filename) #输出文件路径信息
-
- #windows下为:d:\data\query_text\EL_00154
- import re
- pchinese=re.compile(ur'([\u4e00-\u9fa5]+)+?') #判断是否为中文的正则表达式
- f=open("D:\\workspace\\saas\\core\\admin\\controller\\sale\\ctl.tools.php") #打开要提取的文件
- fw=open("getdata.txt","w")#打开要写入的文件
- for line in f.readlines(): #循环读取要读取文件的每一行
- m=pchinese.findall(line.decode('utf8')) #使用正则表达获取中文
- if m:
- str1='|'.join(m)#同行的中文用竖杠区分
- str2=str1
- fw.write(str2)#写入文件
- fw.write("\n")#不同行的要换行
- f.close()
- fw.close()#
3.遍历文件夹,并将文件中中文写入文件
- #coding=utf-8
-
- import re, os
- def find_chn(infile, outfile):
- pchinese=re.compile(ur'([\u4e00-\u9fa5]+)+?') #判断是否为中文的正则表达式
- f=open(infile) #打开要提取的文件
- flag = 0
- for line in f.readlines(): #循环读取要读取文件的每一行
- if line.find('//')!= -1:#如果有注释,直接跳过
- continue
- if line.find('/*')!= -1 or line.find('<!--')!= -1:
- flag=1
- if line.find('*/')!= -1 or line.find('-->')!= -1:
- flag = 0
- continue
- if flag==1:
- continue
- m=pchinese.findall(line.decode('utf8')) #使用正则表达获取中文
- if m:
- str1='|'.join(m)#同行的中文用竖杠区分
- str2=str1
- outfile.write(str2)#写入文件
- outfile.write("\n")#不同行的要换行
- print str2
- f.close()
-
-
- fw=open("getdata.txt","a+")#打开要写入的文件
- for parent,dirnames,filenames in os.walk("D:\\workspace\\saas\\core\\shop\\view\\gallery\\"): #三个参数:分别返回1.父目录 2.所有文件夹名字(不含路径) 3.所有文件名字
-
- for filename in filenames: #输出文件信息
- print os.path.join(parent,filename)
- find_chn(os.path.join(parent,filename), fw)
-
- fw.close()#