正则元字符

最新推荐文章于 2021-03-10 10:48:19 发布

小二丶上酒

最新推荐文章于 2021-03-10 10:48:19 发布

阅读量157

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/hu827250322/article/details/97291891

版权

Python 专栏收录该内容

24 篇文章 1 订阅

订阅专栏

.		匹配除换行符以外的任意字符
[0123456789] []是字符集合，表示匹配方括号中所包含的任意一个字符
[good]	 匹配good中任意一个字符
[a-z]	 匹配任意小写字母
[A-Z]	 匹配任意大写字母
[0-9]	匹配任意数字
[0-9a-zA-Z] 匹配任意的数字和字母
[0-9a-zA-Z_]匹配任意的数字，字母以及下划线
[^good]		匹配除了good这几个字母以外的所有字符，中括号里的^称为脱字符，表示不匹配集合中的字符
[^0-9]		匹配所有的非数字字符
\d 			匹配数字，效果同[0-9]
\D		    匹配非数字字符，效果同[^0-9]
\w			匹配数字，字母和下划线，效果同[0-9a-zA-Z_]
\W			匹配非数字，字母和下划线，效果同[^0-9a-zA-Z_]
\s			匹配任意的空白符(空格、回车、换行、制表、换页)，效果同[\r\n\t\f]
\S			匹配任意的非空白符，效果同[^\f\n\r\t]

^	首行匹配，和在[]里的^不是一个意思
$	行尾匹配
\A	匹配字符串开始，它和^的区别是，\A只匹配整个字符串的开头，即使在re.M模式下也不会匹配它行的行首
\Z	匹配字符串结束，它和$的区别是，\Z只匹配整个字符串的结束，即使在re.M模式下也会匹配它行的行尾

\b	匹配一个单词的边界，也就是指单词和空格的位置
	'er\b'可以匹配never，不能匹配nerve
	
\B	匹配非单词边界

print(re.search("^good","you are a good man"))
print(re.search("man$","you are a good man"))

print(re.search("^good","you are a good man",re.M))
print(re.search("\Agood","you are a good man",re.M))
print(re.search("man$","you are a good man",re.M))
print(re.search("man\Z","you are a good man",re.M))

print(re.search(r"er\b","never"))
print(re.search(r"er\b","neve"))

print(re.search(r"er\B","never"))
print(re.search(r"er\B","neve"))

说明：下方的x，y均为假设的普通字符，n，m(非负整数)，不是正则表达式的元字符
(xyz)	匹配小括号内的xyz(作为一个整体去匹配)
x?		匹配0个或者1个x
x*		匹配0个或者任意多个x(.*表示匹配0个或者任意多个字符(换行符除外))
x+		匹配至少一个x
x{n}	匹配确定的n个x(n是一个非负整数)
x{n,}	匹配至少n个x
x{n,m}	匹配至少n个最多m个x，注意n<=m
x|y		|表示或，匹配的是x或y

print(re.findall(r"a?","aaa"))#非贪婪匹配，尽可能少的匹配
print(re.findall(r"a*","aaabaa"))#贪婪匹配，尽可能多的匹配

print(re.findall(r"a+","aaabaaaa"))#贪婪匹配，尽可能多的匹配
print(re.findall(r"a{3}","aaabaaaa"))
print(re.findall(r"a{3,}","aaabaaaa"))#贪婪匹配，尽可能多的匹配
print(re.findall(r"a{3,6}","aaabaaaa"))
print(re.findall(r"(a|A)n","anaabaaaAn"))

提取：you...man
str1 = "you are a good man,you are a nice man ,you are a great man,you are a..."
print(re.findall(r"you.*?man",str1))

'''
*?  +?  x? 最小匹配，通常都是尽可能多的匹配，可以使用这种贪婪匹配(?:x) 类似于(xyz)，但是不表示一个组
'''
#注释：/* part1 */ /* part2 */
print(re.findall(r"/*.*?/*/",r"/* part1 */ /* part2 */"))

（.*？）有时可以起到奇妙的作用

re.I 使匹配对大小写不敏感

re.L 做本地化识别（locale-aware）匹配

re.M 多行匹配，影响 ^ 和 $

re.S 使 . 匹配包括换行在内的所有字符

re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.

re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。