先看一下最后面特殊字符和表达式的含义,有一个初步印象再返回来尝试例子
调用方式:
import re
函数:
pattern前的r表示之后是一个纯字符串,编译器不会编译其中的转义字符,如\n等,用来防止\的编译冲突,一般正则表达式或系统路径前使用。\b是转义字符代表退格,但在正则表达式中表示匹配位于开头或者结尾的空字符串
-
检索 re.match(pattern, string, flag)
match()从字符串第一个字符进行匹配,如果不符,直接返回None,否则返回的一个class通过span()得到索引的区间
print(re.match('www', 'www.runoob.com')) print(re.match('www', 'www.runoob.com').span()) print(re.match('com', 'www.runoob.com')) #<_sre.SRE_Match object; span=(0, 3), match='www'> #(0, 3) #None
-
检索 re.search(pattern, string, flag)
print(re.search('www', 'www.runoob.com').span()) # 在起始位置匹配 print(re.search('com', 'www.runoob.com').span()) # 不在起始位置匹配 #(0, 3) #(11, 14)
-
检索 findall(string, position, end position)
position 可指定起始匹配位置,默认为0,end position 指定结束位置,默认为字符串长度
pattern = re.compile(r'\d+') # 查找数字 result1 = pattern.findall('runoob 123 google 456') result2 = pattern.findall('run88oob123google456', 0, 10) #['123', '456'] #['88', '12']
-
检索 re.finditer(pattern, string, flags)
返回的是一个生成器
it = re.finditer("\d+","12a32bc43jf3") for match in it: print(match.group()) #12 #32 #43 #3
-
分割 re.split(pattern, string, maxsplit, flags)
找不到pattern则返回原字符串
加()会一同返回分割的pattern
re.split('\W+', 'runoob! runoob! runoob.') #['runoob', 'runoob', 'runoob', ''] re.split('(\W+)', 'runoob! runoob! runoob.') #['runoob', '! ', 'runoob', '! ', 'runoob', '.', ''] re.split('\W+', 'runoob, runoob, runoob.', 1) #['runoob', 'runoob, runoob.']
-
替换 re.sub(pattern, repl, string, count, flags)
phone = "2004-959-559 # 这是一个国外电话号码" num = re.sub('#.*$', "", phone) print("电话号码是: ", num) #电话号码是: 2004-959-559 num = re.sub('\D', "", phone) print("电话号码是: ", num) #电话号码是: 2004959559
-
编译 re.compile(strPattern, flag)
可用于search,match等,例子见findall
特殊符号:
- 分组 group()
group(0) 为所有分组,即整个字符串
group(num) 为第num个分组import re line = "Cats are smarter than dogs" matchObj = re.match( r'(.*) are (.*?) (.*)', line, re.I) print("matchObj.group() : ", matchObj.group()) print("matchObj.group() : ", matchObj.group(1)) print("matchObj.group() : ", matchObj.group(2)) print("matchObj.group() : ", matchObj.group(3)) #matchObj.group() : Cats are smarter than dogs #matchObj.group() : Cats #matchObj.group() : smarter #matchObj.group() : than dogs
在pattern中有几个(),group就有几个分组,按顺序取括号内的内容。上面两个例子展示了?的用法,取零或一次,第一个group2只取了一个单词,第二个没有?,group2包含两个单词matchObj = re.match( r'(.*) are (.*) (.*)', line, re.I) print("matchObj.group() : ", matchObj.group()) print("matchObj.group() : ", matchObj.group(1)) print("matchObj.group() : ", matchObj.group(2)) print("matchObj.group() : ", matchObj.group(3)) #matchObj.group() : Cats are smarter than dogs #matchObj.group() : Cats #matchObj.group() : smarter than #matchObj.group() : dogs
- flag
re.I 忽略大小写re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性,忽略空格和 # 后面的注释
-
特殊表达式
\A 只在字符串开头进行匹配。 \b 匹配位于开头或者结尾的空字符串 \B 匹配不位于开头或者结尾的空字符串 \d 匹配任意十进制数,相当于 [0-9] \D 匹配任意非数字字符,相当于 [^0-9] \s 匹配任意空白字符,相当于 [ \t\n\r\f\v] \S 匹配任意非空白字符,相当于 [^ \t\n\r\f\v] \w 匹配任意数字和字母,相当于 [a-zA-Z0-9_] \W 匹配任意非数字和字母的字符,相当于 [^a-zA-Z0-9_] \Z 只在字符串结尾进行匹配
-
特殊字符
$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,请使用 \$。 ( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。 . 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \. 。 [ 标记一个中括号表达式的开始。要匹配 [,请使用 \[。 \ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。 ^ 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。 { 标记限定符表达式的开始。要匹配 {,请使用 \{。 | 指明两项之间的一个选择。要匹配 |,请使用 \|。 * 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 + 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 ? 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。 {n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 {n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 {n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
-
Reference:
http://www.runoob.com/regexp/regexp-syntax.html
https://www.cnblogs.com/yyyg/p/5498803.html