python 正则表达式RE

最新推荐文章于 2024-10-31 10:27:34 发布

落地生根1314

最新推荐文章于 2024-10-31 10:27:34 发布

阅读量156

点赞数

分类专栏： python 文章标签： RE 正则表达式 python

本文链接：https://blog.csdn.net/qq_26369907/article/details/89056859

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

最近处理数据要用到正则表达式，为了以后方便查看，在此进行记录并陆续完善。

储备知识：

## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之，它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符，至少 n 次，至多 m 次。
## (a|b|c) 要么匹配 a，要么匹配 b，要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对象的 groups() 函数获取它的值。
## 正则表达式中的点号通常意味着 “匹配任意单字符”

 
 
 
 1
2
3
4
5
6
7
8
9
10
11
12
13

1. 匹配字符串

规范化。有些文件名并不规范，为了统一处理数据需要规范文件名。正则在这方面用处大。
例如：标准文件名： 0fa1e7a9_nohash_.50.wav，将下列文件名统一化

>> text = r"0fa1e7a9_nohash.50.wav"  ## 文件名特征： 字符串.数字.wav
>> title_1 = re.findall(r"(.+)\.\d+.wav", text)   #  0fa1e7a9_nohash
>> title_2 = re.findall(r".+\.(\d+).wav", text)   # 50
>> title = title_1[0]  + "_" +title_2[0]+".wav"
0fa1e7a9_nohash_50.wav

re.findall(r"(.+).\d+.wav", text)
(.+)匹配多个字符， . 匹配点，\d+匹配一个或一个以上数字， .wav 最后是.wav
re.findall(r".+.(\d+).wav", text)
.+ 匹配多个字符，.匹配点，(\d+)匹配一个或一个以上数字，.wav最后是.wav