正表达式
假设你在一片英文小说里查找hi,你可以中使用正则表达式hi
\b是正则表达式的一个特殊代码(元字符),代表着单词的开头或结尾,也就是单词的分解处。虽然通常应为的单词是由空格,标点符号或者换行来分隔的,但是\b并不匹配这些单词分隔字符的任何一个,它只匹配一个位置。
例子
\bhi\b.*\bLucy\b = hi+任意字符+Lucy
0\d\d-\d\d\d\d\d\d\d\d=0\d{2}-\d{8}
以0开头,然后是两个数字 ,然后是一个连字号“-”最后是8个字符
正则表达式测试工具
· RegexBuddy
· Javascript正则表达式在线测试工具
\s匹配任意的空白符,包括空格,制表符(Tab),换行符,中文全椒空格等。\w匹配字符或数字或下划线或汉字等。
\ba\w*\b匹配以字母a开头的单词–闲是摸个单词开始出(\b)。然后是字母a,然后是任意数量的字母或数字(\w*),最后是单词结束处(\b)。
\d+匹配1个或更多连续的数字。这里的+是和类似的元字符,不同的是匹配重复任意次(可能是0次),而+则匹配 重复1次或更多次。
\b\w{6}\b 匹配 刚好6个字符的单词。
.匹配除换行符意外的任意字符
\w匹配字母或数字或下划线或汉字
\s匹配任意的空白符
\d匹配数字
\b匹配单词的开始或结束
^匹配字符串的开始
$匹配字符串的结束
比如一个网站如果要求你填写的QQ号必须为5位到12位数字时,可以使用:^\d{5,12}$
{5,12} 则是重复的次数不能少于5次,不能多于12次,否则都不匹配
如果你想要找.或者*或者\就出现问题:你没办法指定他们 就要是用\来进行转义
正则表达式中所有的限定符(指定数量的代码, 列如*,{5,12}等):
重复零次或更多次
重复一次货更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
Wnindows\d+匹配Windows后面跟1个或更多数字
^\w+匹配一行的第一个单词(或整个字符串的第一个单词,具体匹配那个意思得看选项设置)
例子
想要匹配没有预定义元字符的字符集合
比如元音字母(a,e,i,o,u)你只需要在放括号里列出他们就行了 [aeiou]
[.?!] 匹配标点符号(.或?或!)
[0-9]代表的含意与\d就是完全一致的:一个数字
同理 [a-z0-9A-Z] 也完全等同于\w(如果只考虑英文的话)
下面是一个更复杂的表达式:(?0\d{2}[ )-]?\d{8}).
我们对它进行一些分析吧:首先是一个转义字符(,它能出现0次或1次(?), 然后是一个 0,后面跟着2个数字(\d{2}),然后是)或-或空格中的一个,它出现1次或不出现(?), 最后是8个数字(\d{8})。
(010)88886666,或022-22334455,或02912345678
但是也能匹配 010)123456789
分支条件:
0\d{2}-\d{8} | 0 \d{3}-\d{7}这个表达式能匹配两种以连字号分隔的电话号码:
一种是三位区号,8为本帝豪(010-12345678) 另一种 0101-1234567
(?0\d{2})?[ - ]?\d{8}| 0\d{2}[- ]?\d{8}这个表达式就自己看看
\d{5}-\d{4}| \d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字, 或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题: 使用分枝条件时,要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}的话,那 么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时,将会从左 到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。
分组:我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了) : 但如果想要重复多个字符可以用小括号来指定子表达式(也叫分组),然后1你就可以指定这个子表达式的重复次数了,你也可以对自表达式进行其他一些才做(后面会有介绍)
(\d{1,3}.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}匹配1到3位的数字,(\d{1,3}.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})。
IP地址中每个数字都不能大于255. 经常有人问我, 01.02.03.04 这样前面带有0的数字, 是不是正确的IP地址呢? 答案是: 是的, IP 地址里的数字可以包含有前导 0 (leading zeroes).
不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组,选择,字符类来描述一个正确的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
理解这个表达式的关键是理解2[0-4]\d|25[0-5]|[01]?\d\d?,这里我就不细说了,你自己应该能分析得出来它的意义。
反义
有事需要查找不属于摸个能简单定义的字符类的字符。比如想查找除了数字意外,其它任意字符都行的情况,这是需要用到反义:
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或借宿的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符
例子
\S+匹配 不高喊 空白的字符串
]+> 匹配 用尖括号括起来的以a开头的字符串
后向引用
使用小括号指定一个自表达式后,匹配这个自表达式的文本(也就是次分组捕获的内容)可以再表达式或其它程序中做进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左到右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推
后向引用用于重复搜索前面某个分组匹配的文本。例如,\1代表分组1匹配的文本。
\b(\w+)\b\s+\1\b可以用来匹配 重复的单词,像go go,或者Kitty Kitty 这个表达式首先是一个单词,也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b),这个单词会被捕获到编号为1的分组中,然后是1个或几个空白符(\s+),最后是分组1中捕获的内容(也就是最前面匹配的那个单词)(\1).
你也可以自己指定子表达式 的组名 。要指定一个子表达式的组名,请示用这样的语法:
(?\w+)(或者把尖括号换成
’也行 ;(?
’Word’\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容 ,你可以使用\k,所以上一个列子也可以写成这样:\b(?\w+)\b\s+\k\b.
常用分组语法
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里
(? 匹配exp,并捕获文本到名称为name的组里,也可以写成
exp) (?’name’ exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?匹配前面不是exp的位置
注释 (? 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读
第三个(?:exp)不会改变正则表达式的处理方式,只是这样的组匹配的内容不会像前两种那样被捕获到某个组里面,也不会拥有组号。“我为什么会想要这样做?”——好问题,你觉得为什么呢?
零宽断言
接下来的四个用于查找在某些内容(但并不包括这些内容)之前货之后的东西,也就是说他们想\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(及断言),因此他们也被称为领宽断言。最好还是拿例子来说明吧:
(?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。
(?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。
假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的部分:((?<=\d)\d{3})+\b,用它对1234567890进行查找时结果是234567890。
下面这个例子同时使用了这两种断言:(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调,不包括这些空白符)。
负向零宽断言:
前面我们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。但是如果我们只是想要确保某个字符没有出现,但并不想去匹配它时怎么办?例如,如果我们想查找这样的单词–它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样:
\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出现在单词的结尾的话,像Iraq,Benq,这个表达式就会出错。这是因为[^u]总要匹配一个字符,所以如果q是单词的最后一个字符的话,后面的[^u]将会匹配q后面的单词分隔符(可能是空格,或者是句号或其它的什么),后面的\w*\b将会匹配下一个单词,于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题,因为它只匹配一个位置,并不消费任何字符。现在,我们可以这样来解决这个问题:\b\w*q(?!u)\w*\b。
零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。
同理,我们可以用(?零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:(?