正则表达式

最新推荐文章于 2022-12-03 18:19:48 发布

weixin_33681778

最新推荐文章于 2022-12-03 18:19:48 发布

阅读量48

点赞数

文章标签： python php shell

原文链接：http://blog.51cto.com/limingyu/2357583

版权

概述：

正则表达式，Regular Expression,缩写为regex、regexp、RE等。

正则表达式是文本处理极为重要的技术，用它可以对字符串按照某种规则进行检索、替换

1970年代，Unix之父Ken Thompson将正则表达式引入到Unix中文本编辑器ed和grep命令中，由此正则表达式普及开来。

1980年后，perl语言对Henry Spencer编写的库，扩展了很多新的特性。

1997年开始，Philip Hazel开发出了PCRE(Perl Compatible Regular Expressions)，它被PHP和HTTPD等工具采用。

正则表达式应用极其广泛，shell中处理文本的命令、各种高级编程语言都支持正则表达式

分类：

1.BRE

基本正则表达式，grep、sed、vi等软件支持。vim有扩展

2.ERE

扩展正则表达式，egrep(grep -E)、sed -r等

3.PCRE

几乎所有高级语言都是PCRE的方言或变种。Python从1.6开始使用SRE正则表达式引擎，可以认为是PCRE的子集，见模块re

基本语法：

"."	点，表示匹配除换行符外任意一个字符
[abc]	字符集合，只能表示一个字符位置，匹配所包含的任意一个字符
[^abc]	字符集合，只能表示一个字符位置，匹配除去集合内字符的任意一个字符
[a-z]	字符范围，也是个集合，表示一个字符位置，匹配所包含的任意一个字符
[^a-z]	字符范围，也是个集合，表示一个字符位置，匹配除去集合内字符的任意一个字符

\b	匹配单词的边界
\B	不匹配单词的边界
\d	[0-9]匹配一位数字
\D	[^0-9]匹配一位非数字
\s	匹配一位空白字符，包括换行符、制表符、空格
\S	匹配一位非空白字符
\w	匹配[a-zA-Z0-9]，包括中文的字
\W	匹配\w之外的字符

*	表示前面的正则表达式会重复0次或多次
+	表示前面的正则表达式重复至少1次
?	表示前面的正则表达式会重复0次或1次
{n}	重复固定的n次
{n,}	重复至少n次
{n,m}	重复n到m次

x\|y	区配x或y
(pattern)	使用小括号指定一个子表达式，也叫分组；捕获后自动分配组号，从1开始可以改变优先级
\数字	匹配对应的分组
(?:pattern)	如果仅仅为了改变优先级，就不需要捕获分组
(?<name>exp) (?'name'exp)	分组捕获，但是可以通过name访问分组；Python语法必须是(?P<name>exp)

零宽断言		举例 wood took foot food
(?=exp)	零宽正预测先行断言，断言exp一定在匹配的右边出现，也就是说断言后面一定跟个exp	f(?=oo)，f后面一定有oo出现
(?<=exp)	零宽度正回顾后发断言，断言exp一定出现在匹配的左边出现，也就是说前面一定有个exp前缀	(?<=f)ood、(?<=t)ook分别匹配ood、ook，ook前一定有t出现
负向零宽断言
(?!exp)	零宽度负预测先行断言，断言exp一定不会出现在右侧，也就是说断言后面一定不是exp	\d{3}(?!\d)匹配3位数字，断言3位数字后面一定不能是数字 foo(?!d)foo后面一定不是d
(?<!exp)	零宽度负回顾后发断言，断言exp一定不能出现在左侧，也就是说断言前面一定不能是exp	(?<!f)ood,ood的左边一定不是f
注释
(?#comment)	注释	f(?=oo)(?#注释)

贪婪与非贪婪

默认是贪婪模式，也就是说尽量多匹配更长的字符串；

非贪婪很简单，在重复的符号后面加上一个?问号，就尽量的少匹配了。

引擎选项

IgnoreCase	匹配时忽略大小写	re.I re.IGNORECASE
SingleLine	单行模式：可以匹配所有字符，包括\n	re.S re.DOTALL
MultiLine	多行模式:^行首、$行尾	re.M re.MULTILINE
IgnorePatternWhitespace	忽略表达式中的空白字符，如果使用空白字符用转义，#可以用来做注释	re.X re.VERBOSE

转载于:https://blog.51cto.com/limingyu/2357583

关注