对文本文件的处理,采用的是逐行处理的方法。Python代码如下:
#coding:utf-8
import re
import os
import time
import sys
import json
file_object = open("abc.log","r")
output = open("abctemp.txt","w")
lines = file_object.readlines()
for line in lines:
content_temp = line.split('{')
if (len(content_temp)>1):
contentfirst=content_temp[0].split(' ')
if((contentfirst[0]>='I0615')):
contentfirstsecond=contentfirst[1].split('.')
if(contentfirstsecond[0]>='16:59:00'):
content=content_temp[1].split('}')
contentsecond=content[0].split(',')
for temp in contentsecond:
tempsecond = temp.split(':')
if(tempsecond[0] == '"token"'):
output.write(tempsecond[1])
output.write("\n")
output.close()
file_object.close()
print "\nsuccess"
这样就取出了限制条件下指定的字段了。但是取出的信息存在重复的行,要进行去重处理。
代码如下:
#coding:utf-8
import re
import time
import sys
from sets import Set
file("abcfinal.txt","w").writelines(Set(file("abc.txt","r").readlines()))
主要是利用Set中元素的不重复性,来达到去重的目的。先将源文件中的行取出写到Set集合中,然后在将Set集合中的元素写到目的文件中。
然后还有对两个文本文件的内容的合并Python方法,代码如下:
#coding:utf-8
import re
import time
import sys
fpa = open("e1.txt","r")
fpb = open("e2.txt","r")
fpc = open("e.txt","w")
arrB = []
for lineb in fpb.readlines():
arrB.append(lineb)
index = 0
for linea in fpa.readlines():
index = index+1
fpc.write(linea)
for i in range((index-1)*10,(index)*10):
try:
fpc.write(arrB[i])
except:
pass
print "Done!"
fpa.close()
fpb.close()
fpc.close()
这个是在网上找的,对range的范围那个部分没有看懂。接着再看看。
总结:
Python对文本的处理还是很方便的。多多掌握,用来处理小事情还是挺方便的。
实习接到的第一个任务就是完成老大给的处理日志的任务。工作是JAVA实习生,听说Python对文本处理的方便,我就硬着头皮边学Python边处理任务了。顺利完成。