工作中经常需要进行文本的分段内容匹配,以下总结出通用的分段处理思路。python3代码如下:
import re
#读取txt文本存储为一个list对象
with open('test.txt','r') as f:
#open为打开文件,r为读取
f = open('test.txt','r')
#逐行读取文件内容
lines = f.readlines()
#定义处理结果的list
result_list=[]
for i in range(len(lines)):
#判断一段的开始内容
if lines[i].startswith("+++ HW-CC08"):
#一段的开始给1个开始的界限“桩子”j
j=1
#定义1个空的行向量
result_line = []
#判断一段的结束内容
while not lines[i+j].startswith("--- END"):
#正则表达式对中间内容进行匹配,提取匹配的结果结果
m = re.search(r' 用户号码 = (\d+)', lines[i+j])
if m is not None:
result= m.group(1)
#每1段提取的内容保存为行向量
result_line.append(result)
j=j+1
#这一段内如果行向量不为空,则保存进处理结果的list
if result_line:
#打印非空的行向量
print(result_line)
result_list.append(result_line)
#打印结果list
print(result_list)