正则表达式

目录

1、基本正则表达式和扩展正则表达式

2、定位符

3、限定符

4、分支条件

5、常用字符

6、非打印字符

  7、POSIX字符

8、分组

9、特殊字符

 10、运算符优先级

11、贪婪匹配与懒惰匹配

12、修饰符(标记)


1、基本正则表达式和扩展正则表达式

世界上的正则表达式种类繁多且复杂,面对这样的状况,POSIX 将正则表达式进行了标准化,并把实现方法分为了两大类:

1) 基本正则表达式(BRE)

2) 扩展正则表达式(ERE)

两者的区别,更多的是元字符的区别。在基本正则表达式(BRE)中,只承认“^”、“$”、“.”、“[”、“]”、“*”这些是元字符,所有其他的字符都被识别为普通字符。而在扩展正则表达式(ERE)中,则在BRE的基础上增加了“(”、“)”、“{”、“}”、“?”和“+”、“|”等元字符。

2、定位符

1、匹配输入字符串开始的位置。

2、锚定行的开始(多行的情况)

$

1、匹配输入字符串结尾的位置。

2、锚定行的结束(多行的情况)

\b

单词锁定符,匹配单词的开始或结束。

如果它位于要匹配的字符串的开始,它在单词的开始处查找匹配项。

如果它位于字符串的结尾,它在单词的结尾处查找匹配项。

如果它位于要匹配的字符串的开始和结尾,则表示全词匹配。

\B匹配不是单词开头或结束的位置

3、限定符

*匹配零个或多个先前字符。代表前面的字符可以不出现,也可以出现一次或者多次。
+匹配一次或多次。代表前面的字符必须至少出现一次。
重复零次或一次。代表前面的字符最多只可以出现一次。
{n}重复之前字符m次。如:'o{5}'匹配包含5个o的行。
{n,}

重复之前字符至少m次,如:'o{5,}'匹配至少有5个o的行。  

注: {0,}与特殊字符 * 是相等。 {1,} 与字符 + 是相等。

{n,m}

重复之前字符至少m次,不多于n次,如:'o{5,10}'匹配5--10个o的行。

注:在逗号和两个数之间不能有空格。

4、分支条件

|

分支条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配。

注:使用分枝条件时,要注意各个条件的顺序匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。

5、常用字符

.匹配一个非换行符的字符,相等于 [^\n\r]。
[]匹配中括号的任意内容。如[AB]表示字符A或B。
[^]匹配一个不在指定范围内的字符。如[^A]表示除A以外的字符。
[ - ]在[]括号内表示字符范围。如[0-9]表示范围0-9。
\(num\)暂存括号中所匹配到的内容,通过编号来依次对应,如 \1、\2、\3 等
\<锚定单词的开始,如:'\<grep'匹配包含以grep开头的单词的行。
\>锚定单词的结束,如'grep\>'匹配包含以grep结尾的单词的行。
\d匹配一个数字字符
\D匹配任意非数字的字符
\s匹配任意的空白符。包括空格,制表符(Tab),换行符,中文全角空格等。等价于 [ \f\n\r\t\v]。
\S匹配任意不是空白符的字符。等价于 [^ \f\n\r\t\v]。
\w匹配任意字母,数字,下划线,汉字的字符。只考虑英文的话,等价于([A-Za-z0-9_])。
\W 匹配任意不是字母,数字,下划线,汉字的字符。

6、非打印字符

\cx匹配由x指明的ASCII控制字符。例如,\cC代表Ctrl+C。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
\0nnASCII代码中八进制代码为nn的字符
\xnASCII代码中十六进制代码为n的字符,例如, '\x41' 匹配 "A"。
\unnnnUnicode代码中十六进制代码为nnnn的字符
\a响铃字符
\f匹配一个换页符。等价于 \x0c 和 \cL。
\n匹配一个换行符。等价于 \x0a 和 \cJ。
\r匹配一个回车符。等价于 \x0d 和 \cM。
\t匹配一个制表符。等价于 \x09 和 \cI。
\v匹配一个垂直制表符。等价于 \x0b 和 \cK。
\e

Escape

  7、POSIX字符

[:alnum:]字母与数字字符
[:alpha:] 字母字符  
[:digit:] 数字字符 
[:graph:] 非空字符(非空格、控制字符)   
[:lower:]小写字符   
[:cntrl:]控制字符   
[:print:]可打印字符
[:punct:] 标点符号  
[:space:]空白字符
[:upper:]大写字符 
[:xdigit:]十六进制数字

8、分组

分类代码/语法说明
捕获(exp)匹配exp,并捕获文本到自动命名的组里
(?<name>exp)匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)
(?:exp)匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言(?=exp)零宽度正预测先行断言。匹配exp前面的位置(断言自身出现的位置的后面能匹配表达式exp)
(?<=exp)零宽度正回顾后发断言。匹配exp后面的位置(断言自身出现的位置的前面能匹配表达式exp)
(?!exp)零宽度负预测先行断言。匹配后面跟的不是exp的位置(断言此位置的后面不能匹配表达式exp)
(?<!exp)零宽度正回顾后发断言。匹配前面不是exp的位置(断言此位置的前面不能匹配表达式exp)
注释(?#comment)这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读

注:零宽断言常用于判断一个字符串中不包含某个子串(由字符序列构成)

9、特殊字符

若要匹配特殊字符,必须首先使字符"转义",即,将反斜杠字符\ 放在其前。

$要匹配 $ 字符本身,使用 \$。
( 要匹配 ( 字符本身,请使用 \(。
)要匹配 ) 字符本身,请使用 \)。
*要匹配 * 字符本身,请使用 \*。
+要匹配 + 字符本身,请使用 \+。
.要匹配 .字符本身 ,请使用 \. 。
[要匹配 [字符本身,请使用 \[。
]要匹配 ]字符本身,请使用 \]。
?要匹配 ? 字符本身,请使用 \?。
\要匹配\字符本身,请使用 \\。
^要匹配 ^ 字符本身,请使用 \^。
{要匹配 {字符本身,请使用 \{。
|要匹配 |字符本身,请使用 \|。

 10、运算符优先级

运算符描述
\转义符
(), []圆括号和方括号
*, +, ?, {n}, {n,}, {n,m}限定符
^, $, \任何元字符、任何字符定位点和序列(即:位置和顺序)
|优先级最低。
"m|food"匹配"m"或"food"。若要匹配"mood"或"food",应使用"(m|f)ood"。

11、贪婪匹配与懒惰匹配

贪婪匹配尽可能多的字符(默认);懒惰匹配匹配尽可能少的字符。

* 和 + 限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个 ? 就可以实现非贪婪或最小匹配。

代码/语法说明
*?重复任意次,但尽可能少重复
+?重复1次或更多次,但尽可能少重复
??重复0次或1次,但尽可能少重复
{n,m}?重复n到m次,但尽可能少重复
{n,}?重复n次以上,但尽可能少重复

12、修饰符(标记)

标记也称为修饰符,正则表达式的标记用于指定额外的匹配策略。标记不写在正则表达式里,标记位于表达式之外,格式如下:

/pattern/flags
修饰符描述
i将匹配设置为不区分大小写。
g全局匹配,查找所有的匹配项。
m多行匹配,使边界字符 ^ 和 $ 匹配每一行的开头和结尾,多行而不是整个字符串的开头和结尾。
s

特殊字符圆点 . 中包含换行符 \n。默认情况下的圆点 . 是 匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, . 中包含换行符 \n。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值