Python 正则表达式匹配

- 匹配语法

1. 特殊字符:

特殊字符
$匹配输入字符串的结尾位置。
( )标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。
*匹配前面的子表达式零次或多次。
+匹配前面的子表达式一次或多次。
.匹配除换行符 \n 之外的任何单字符。
[标记一个中括号表达式的开始。
?匹配前面的子表达式零次或一次。
^匹配输入字符串的开始位置。
{标记限定符表达式的开始。
|指明两项之间的一个选择。

2. 限定符

限定符
* 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
?匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。
{n}n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,}n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

3. 非打印字符

非打印字符
\n匹配一个换行符。
\r匹配一个回车符。
\s匹配任何空白字符,包括空格、制表符、换页符等等。
\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\d匹配一个数字。
\D匹配一个非数字。
\t匹配一个制表符。
\v匹配一个垂直制表符。
\f匹配一个换页符。
\cx匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
- 实例
  • 测试环境 Python 3
  • 需要模块 import re
    //明天一定搞
    咕咕咕的第一天
- 注意
  • *、+ 限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
  • 区分
    1. [] 字符集,一个字符的集合,可匹配其中任意一个字符
    2. {n,m} 重复n到m次
    3. () 分组
  • 函数
    1. compile(pattern, flags=0) 给定一个正则表达式 pattern
    2. findall(pattern, string, flags=0) 寻找所有匹配正则表达式的字串,返回一个列表。
    3. match(pattern, string, flags=0) 去待操作字符串中寻找可以匹配的子串,从开始位置匹配。
    4. split(pattern, string, maxsplit=0, flags=0) 给定正则表达式寻找切分字符串位置。
    5. sub(pattern, repl, string, count=0, flags=0) 将正则表达式 pattern 匹配到的字符串替换为 repl 指定的字符串。
    6. search(pattern, string, flags=0) 函数类似于 match,不同之处在于不限制正则表达式的开始匹配位置。
存在问题

1.今天写正则的时候遇到个问题,弄了一下午。
匹配[ ]的内容:
数据:1133[55]444[66]777
当正则表达式为.*(\[.*?\]).*的时候找到的为[66]
当正则表达式为[.]*(\[.*?\])[.]*的时候找到的为[55]
不知道哪里出了问题!!!!!
叮咚!问题解决了!

  1. .*匹配除空格以外的所有 一直匹配到 1133[55]444
    然后( )匹配到 [66]
    最后的.*匹配到777 所以最终得到[66]
  2. 下面那个 [.]匹配字符集 . 0或者多个 都匹配不到
    (\[.*?\]) 一直搜索到1133这里 发现[55] 可以匹配到
    后面的[.]* 到444结束 所以就一个[55]
  • 总结:
    1. .*都匹配除空格外的所有了 最后一个[]在哪里就匹配到哪里 。(即贪婪匹配)
    2. 尽量少用.*
    3. 如果要改的话,在所有第一个*号后加?试试。
    4. .*表示匹配除了\n的任意字符[.]* 表示是匹配字符集 .

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值