第三方库正则表达式re模块

最新推荐文章于 2022-11-24 16:44:58 发布

weixin_30491641

最新推荐文章于 2022-11-24 16:44:58 发布

阅读量146

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/zoe233/p/7132809.html

版权

正则表通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式通常缩写成“regex”，单数有regexp、regex，复数有regexps、regexes、regexen。

正则表达式是对 字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

1. 给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）；

2. 可以通过正则表达式，从字符串中获取我们想要的特定部分。

正则表达式的特点是：

1. 灵活性、逻辑性和功能性非常的强；

2. 可以迅速地用极简单的方式达到字符串的复杂控制。

3. 对于刚接触的人来说，比较晦涩难懂。

由于正则表达式主要应用对象是文本，因此它在各种文本编辑器场合都有应用，小到著名编辑器EditPlus，大到Microsoft Word、Visual Studio等大型编辑器，都可以使用正则表达式来处理文本内容。

常用正则表达式符号

 
     
          '.'      
          默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行 
         
 
          '^'      
          匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r 
          "^a" 
          , 
          "\nabc\neee" 
          ,flags 
          = 
          re.MULTILINE) 
         
 
          '$'      
          匹配字符结尾，或e.search( 
          "foo$" 
          , 
          "bfoo\nsdfsf" 
          ,flags 
          = 
          re.MULTILINE).group()也可以 
         
 
          '*'      
          匹配 
          * 
          号前的字符 
          0 
          次或多次，re.findall( 
          "ab*" 
          , 
          "cabb3abcbbac" 
          )  结果为[ 
          'abb' 
          ,  
          'ab' 
          ,  
          'a' 
          ] 
         
 
          '+'      
          匹配前一个字符 
          1 
          次或多次，re.findall( 
          "ab+" 
          , 
          "ab+cd+abb+bba" 
          ) 结果[ 
          'ab' 
          ,  
          'abb' 
          ] 
         
 
          '?'      
          匹配前一个字符 
          1 
          次或 
          0 
          次 
         
 
          '{m}'    
          匹配前一个字符m次 
         
 
          '{n,m}'  
          匹配前一个字符n到m次，re.findall( 
          "ab{1,3}" 
          , 
          "abb abc abbcbbb" 
          ) 结果 
          'abb' 
          ,  
          'ab' 
          ,  
          'abb' 
          ] 
         
 
          '|'      
          匹配|左或|右的字符，re.search( 
          "abc|ABC" 
          , 
          "ABCBabcCD" 
          ).group() 结果 
          'ABC' 
         
 
          '(...)'  
          分组匹配，re.search( 
          "(abc){2}a(123|456)c" 
          ,  
          "abcabca456c" 
          ).group() 结果 abcabca456c 
         

             
         

             
         
 
          '\A'     
          只从字符开头匹配，re.search( 
          "\Aabc" 
          , 
          "alexabc" 
          ) 是匹配不到的 
         
 
          '\Z'     
          匹配字符结尾，同$ 
         
 
          '\d'     
          匹配数字 
          0 
          - 
          9 
         
 
          '\D'     
          匹配非数字 
         
 
          '\w'     
          匹配[A 
          - 
          Za 
          - 
          z0 
          - 
          9 
          ] 
         
 
          '\W'     
          匹配非[A 
          - 
          Za 
          - 
          z0 
          - 
          9 
          ] 
         
 
          '\s'      
          匹配空白字符、\t、\n、\r , re.search( 
          "\s+" 
          , 
          "ab\tc1\n3" 
          ).group() 结果  
          '\t' 
         

             
         
 
          '(?P<name>...)'  
          分组匹配 re.search( 
          "(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})" 
          , 
          "371481199306143242" 
          ).groupdict( 
          "city" 
          ) 结果{ 
          'province' 
          :  
          '3714' 
          ,  
          'city' 
          :  
          '81' 
          ,  
          'birthday' 
          :  
          '1993' 
          } 
         
 
   

最常用的匹配语法

 
          re.match 从头开始匹配 
         
          re.search 匹配包含 
         
          re.findall 把所有匹配到的字符放到以列表中的元素返回 
         
          re.splitall 以匹配到的字符当做列表分隔符 
         
          re.sub      匹配字符并替换

反斜杠的困扰
与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

仅需轻轻知道的几个匹配模式（flags=）

 
          re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同） 
         
          M(MULTILINE): 多行模式，改变 
          '^' 
          和 
          '$' 
          的行为（参见上图） 
         
          S(DOTALL): 点任意匹配模式，改变 
          '.' 
          的行为

转载于:https://www.cnblogs.com/zoe233/p/7132809.html

weixin_30491641

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第三方库正则表达式re模块

正则表通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式通常缩写成“regex”，单数有regexp、regex，复数有regexps、regexes、regexen。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串，...
复制链接

扫一扫