python 正则表达式RE

最近处理数据要用到正则表达式,为了以后方便查看,在此进行记录并陆续完善。

储备知识:

## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次。
## (a|b|c) 要么匹配 a,要么匹配 b,要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对象的 groups() 函数获取它的值。
## 正则表达式中的点号通常意味着 “匹配任意单字符”

 
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

1. 匹配字符串

规范化。有些文件名并不规范,为了统一处理数据需要规范文件名。正则在这方面用处大。
例如:标准文件名: 0fa1e7a9_nohash_.50.wav,将下列文件名统一化

>> text = r"0fa1e7a9_nohash.50.wav"  ## 文件名特征: 字符串.数字.wav
>> title_1 = re.findall(r"(.+)\.\d+.wav", text)   #  0fa1e7a9_nohash
>> title_2 = re.findall(r".+\.(\d+).wav", text)   # 50
>> title = title_1[0]  + "_" +title_2[0]+".wav"
0fa1e7a9_nohash_50.wav

re.findall(r"(.+).\d+.wav", text)
(.+)匹配多个字符, . 匹配点,\d+匹配一个或一个以上数字, .wav 最后是.wav
re.findall(r".+.(\d+).wav", text)
.+ 匹配多个字符,.匹配点,(\d+)匹配一个或一个以上数字,.wav最后是.wav

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值