最近处理数据要用到正则表达式,为了以后方便查看,在此进行记录并陆续完善。
储备知识:
## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次。
## (a|b|c) 要么匹配 a,要么匹配 b,要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对象的 groups() 函数获取它的值。
## 正则表达式中的点号通常意味着 “匹配任意单字符”
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
1. 匹配字符串
规范化。有些文件名并不规范,为了统一处理数据需要规范文件名。正则在这方面用处大。
例如:标准文件名: 0fa1e7a9_nohash_.50.wav,将下列文件名统一化
>> text = r"0fa1e7a9_nohash.50.wav" ## 文件名特征: 字符串.数字.wav
>> title_1 = re.findall(r"(.+)\.\d+.wav", text) # 0fa1e7a9_nohash
>> title_2 = re.findall(r".+\.(\d+).wav", text) # 50
>> title = title_1[0] + "_" +title_2[0]+".wav"
0fa1e7a9_nohash_50.wav
re.findall(r"(.+).\d+.wav", text)
(.+)匹配多个字符, . 匹配点,\d+匹配一个或一个以上数字, .wav 最后是.wav
re.findall(r".+.(\d+).wav", text)
.+ 匹配多个字符,.匹配点,(\d+)匹配一个或一个以上数字,.wav最后是.wav