python3使用正则表达式小记

最新推荐文章于 2022-07-20 15:52:47 发布

milletluo

最新推荐文章于 2022-07-20 15:52:47 发布

阅读量694

点赞数 1

分类专栏： Python 文章标签： python 正则表达式

本文链接：https://blog.csdn.net/lm409/article/details/77744195

版权

Python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

引言
非贪婪匹配和零宽度负回顾后发断言
文件读写
参考

引言

一个小任务中需要将多个数据段中的最新版本信息提取出来，用到了正则表达式提取数据，有些坑，特此记录。

1.非贪婪匹配和零宽度负回顾后发断言

先看代码

import re
listVersion=[]
fileText='PRS-7000风电场-SZ142372_低压-20170702新版本PRS-7000风电场-SZ142372_低压-150102'
matchV=re.findall(r"((PRS-700U|PRS-7000).+?(?<!SZ)(\d{8}|\d{7}|\d{6}))", fileText, re.MULTILINE)
print(matchV)
for matchVersion in matchV:
    listVersion.append(matchVersion[0])
print(listVersion)

输出:

[('PRS-7000风电场-SZ142372_低压-20170702', 'PRS-7000', '20170702'), ('PRS-7000风电场-SZ142372_低压-150102', 'PRS-7000', '150102')]
['PRS-7000风电场-SZ142372_低压-20170702', 'PRS-7000风电场-SZ142372_低压-150102']

正则((PRS-700U|PRS-7000).+?(?<!SZ)(\d{8}|\d{7}|\d{6})) 中间的 .+?用到了非贪婪匹配，即懒惰匹配，匹配尽可能少的字符，避免了将两条信息匹配成一条
(?<!SZ)用到了零宽度负回顾后发断言，来断言此位置的前面不能匹配SZ，避免将SZ开头的编号匹配为六位日期。
当然，日期的正则这里没有更具体，比如判断范围、闰年等。
如输出结果所示，正则表达式的findall函数以列表形式返回全部能匹配的子串，匹配了所有()分组，遍历取第一个，即最外层()的匹配
re.MULTILINE表示多行匹配

2.文件读写

读文件：

with open(DATA_FILE) as input_file:
    for line in input_file:
        Index, fileName, fileType, creatTime, fileRow, fileText = line.split(';')
        print(Index+','+fileName+','+fileText)
        ...

写文件：

with open(STORED_FILE, 'w') as output_file:
    str_list = [line + '\n' for line in outputText]  # 在list中加入换行符
    output_file.writelines(str_list)

参考

Python3标准库（二） re模块
 正则表达式30分钟入门教程

milletluo

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录