python 正则表达式

先看一下最后面特殊字符和表达式的含义,有一个初步印象再返回来尝试例子

调用方式:

import re

函数:

pattern前的r表示之后是一个纯字符串,编译器不会编译其中的转义字符,如\n等,用来防止\的编译冲突,一般正则表达式或系统路径前使用。\b是转义字符代表退格,但在正则表达式中表示匹配位于开头或者结尾的空字符串

  1. 检索 re.match(pattern, string, flag)
    match()从字符串第一个字符进行匹配,如果不符,直接返回None,否则返回的一个class通过span()得到索引的区间
    print(re.match('www', 'www.runoob.com'))
    print(re.match('www', 'www.runoob.com').span())
    print(re.match('com', 'www.runoob.com'))
    #<_sre.SRE_Match object; span=(0, 3), match='www'>
    #(0, 3)
    #None
  2. 检索 re.search(pattern, string, flag)
    print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配
    print(re.search('com', 'www.runoob.com').span())         # 不在起始位置匹配
    #(0, 3)
    #(11, 14)
  3. 检索 findall(string, position, end position)
    position 可指定起始匹配位置,默认为0,end position 指定结束位置,默认为字符串长度
    pattern = re.compile(r'\d+')   # 查找数字
    result1 = pattern.findall('runoob 123 google 456')
    result2 = pattern.findall('run88oob123google456', 0, 10)
    #['123', '456']
    #['88', '12']
  4. 检索 re.finditer(pattern, string, flags)
    返回的是一个生成器
    it = re.finditer("\d+","12a32bc43jf3") 
    for match in it: 
        print(match.group())
    #12 
    #32 
    #43 
    #3
  5. 分割 re.split(pattern, string, maxsplit, flags)
    找不到pattern则返回原字符串
    加()会一同返回分割的pattern
    re.split('\W+', 'runoob! runoob! runoob.')
    #['runoob', 'runoob', 'runoob', '']
    re.split('(\W+)', 'runoob! runoob! runoob.')
    #['runoob', '! ', 'runoob', '! ', 'runoob', '.', '']
    re.split('\W+', 'runoob, runoob, runoob.', 1) 
    #['runoob', 'runoob, runoob.']
  6. 替换 re.sub(pattern, repl, string, count, flags)
    phone = "2004-959-559 # 这是一个国外电话号码"
    num = re.sub('#.*$', "", phone)
    print("电话号码是: ", num)
    #电话号码是:  2004-959-559
    num = re.sub('\D', "", phone)
    print("电话号码是: ", num)
    #电话号码是:  2004959559
  7. 编译 re.compile(strPattern, flag)
    可用于search,match等,例子见findall

特殊符号:

  • 分组 group()
    group(0) 为所有分组,即整个字符串
    group(num) 为第num个分组
    import re
    line = "Cats are smarter than dogs"
    matchObj = re.match( r'(.*) are (.*?) (.*)', line, re.I)
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.group() : ", matchObj.group(1))
    print("matchObj.group() : ", matchObj.group(2))
    print("matchObj.group() : ", matchObj.group(3))
    #matchObj.group() :  Cats are smarter than dogs
    #matchObj.group() :  Cats
    #matchObj.group() :  smarter
    #matchObj.group() :  than dogs
    matchObj = re.match( r'(.*) are (.*) (.*)', line, re.I)
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.group() : ", matchObj.group(1))
    print("matchObj.group() : ", matchObj.group(2))
    print("matchObj.group() : ", matchObj.group(3))
    #matchObj.group() :  Cats are smarter than dogs
    #matchObj.group() :  Cats
    #matchObj.group() :  smarter than
    #matchObj.group() :  dogs
    在pattern中有几个(),group就有几个分组,按顺序取括号内的内容。上面两个例子展示了?的用法,取零或一次,第一个group2只取了一个单词,第二个没有?,group2包含两个单词
  • flag
    re.I 忽略大小写
    re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    re.M 多行模式
    re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
    re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    re.X 为了增加可读性,忽略空格和 #
     后面的注释

  • 特殊表达式
    \A只在字符串开头进行匹配。
    \b匹配位于开头或者结尾的空字符串
    \B匹配不位于开头或者结尾的空字符串
    \d匹配任意十进制数,相当于 [0-9]
    \D匹配任意非数字字符,相当于 [^0-9]
    \s匹配任意空白字符,相当于 [ \t\n\r\f\v]
    \S匹配任意非空白字符,相当于 [^ \t\n\r\f\v]
    \w匹配任意数字和字母,相当于 [a-zA-Z0-9_]
    \W匹配任意非数字和字母的字符,相当于 [^a-zA-Z0-9_]
    \Z只在字符串结尾进行匹配

  • 特殊字符
    $匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,请使用 \$。
    ( )标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。
    .匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \. 。
    [标记一个中括号表达式的开始。要匹配 [,请使用 \[。
    \将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。
    ^匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。
    {标记限定符表达式的开始。要匹配 {,请使用 \{。
    |指明两项之间的一个选择。要匹配 |,请使用 \|。
    *匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
    +匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
    ?匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。
    {n}n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
    {n,}n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
    {n,m}m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

  • Reference:
    http://www.runoob.com/regexp/regexp-syntax.html
    https://www.cnblogs.com/yyyg/p/5498803.html


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值