正则表达式

1.什么是正则表达式?

正则表达式,在Perl中通常被称为模式(pattern):某个模板是否匹配某个字符串◆。由于存在无限的字符串,某个给定的模
式将这些字符串分成两类:一类是能匹配的,一类是不能匹配的。这里没有,或者,大概,几乎那样的匹配:要么匹配,
要么不匹配。

要匹配某个模式(正则表达式)和$_的关系,可以将模式放在正斜线(//)之间,如下:

$_ =“yabba dabba doo”;
if(/abba/){
print“It matched!\n”;
}
表达式/abba/将在$_寻找这四个字母。如果找到,则返回true,在本例中,它出现了不止一次,但结果没什么不同。总之,
如果找到了,则匹配上;如果没找到,则没匹配上。

所有在双引号中的转义字符在模式中均有效,因此你可以使用/coke\tsprite/来匹配11 个字符的字符串coke, tab(制表符),
sprite。

点(.)是通配符,它可以匹配任何单个的字符,但不包括换行符(“\n”)。因此,模式/bet.y/将匹配betty。同时也匹配betsy,
bet=y, bet.y,或者说任意字符串后接bet,然后是任意的单个字符(不包括换行符),后接y。它不会匹配bety,betsey,因为
t 和y之间不是一个字符。点(.)只匹配一个字符。

如果想匹配句号(英语中句号就是一个点:译者注),可以使用点(.)。但由于点(.)可以匹配任意的单个字符(除换行符外),
则其结果比你希望的要多。如果只希望点(.)匹配句号,可以使用反斜线。这条规则对Perl正则表达式中所有元字符均有效:
元字符前使用反斜线将使它变成普通的字符。如,模式/3\.14159/中的点(.)即不是通配符。

反斜线是第二个元字符。如果需要真正的反斜线,需要重复使用两个反斜线,这和Perl中其它情况下是一样的。

通常,需要模式中某些串是可以重复的。星号(*)表示匹配前一项0次或者多次。因此,/fred\t*barney/将匹配上fred 和barney
之间有任意个制表位(tab)的字符串。它可以匹配“fred\tbarney”,其间有一个tab;匹配“fred\t\tbarney”,其间有两个制表位;
“fred\t\t\tbarney”其间有三个制表位;“fredbarney”,其间什么也没有。这是由于星号(*)是指“0个或者多个”,因此其间可以
是任意个制表符,但不能是其它的字符。可以这样看待星号(*):“前面的东西,重复任意次数,包括0 次”(因为*号在数
学上是乘法运算符)。
如果希望包括不同的字符,怎么办呢?点(.)可以匹配任何单字符◆,因此.*将匹配任意字符任意多数。这就是说模式
/fred.*barney/将匹配fred,和barney之间有任意多个任意字符(不含换行符)的字符串。任意行如果前面有fred,后面有barney,
其间为任意字符(字符串)都将匹配上。我们将.*叫做“任意字符串匹配模式”,因为任意的字符串均能被匹配上(不包括
换行符)。

星号的正是叫法是数量词(quantifier),意指其可以指代多个前面的项。它不是唯一的数量词,加(+)也是。加(+)的意思是可
以匹配前面一项的一个或多个:/fred +barney/意思是fred 和barney之间由空格分开,且只能是空格。(空格不是元字符)。
它不会匹配fredbarney,因为加(+)意指一个或多个,因此至少是一个。可以这样看待加(+):“最后一项,(可选的)至少还
有一项。

还有第三个数量词,其限制性更强。它是问号(?),其含义是前面一个项出现一次,或者不出现。也就是说,前面这个项出
现1次或者0次,此外不会有其它情况。因此,/barm-?bamm/只匹配:bamm-bamm或bammbamm。这很容易记住:“前面
的这个项,出现?或者不出现?”

括号也是元字符。在数学中,括号(())用来表示分组。例如,模式/fred+/能匹配上如fredddddddd,这样的字符串,但这种字
符串在实际中没有什么用途。模式/(fred)+/能匹配上像fredfredfred这样的字符串,这更可能是你所希望的。那么模式/(fred)*/
呢?它将匹配上像hello,world这样的字符串◆。
◆星号(*)意指匹配上0次或者多次fred。当为0时,那什么字符串都能被匹配上。这个模式能匹配上任何字符串,甚至是空串。

竖线(|),在这种用法中通常被读作“或(or)”,意思是匹配左边的或者右边的。如果竖线左边没有匹配上,则匹配右边。因
此,/fred|barney|betty/将匹配出现过fred,或者barney,或者betty的字符串。

现在你可以书写像/fred( |\t)+barney/这样的模式,它将匹配fred,barney以及中间由空格,制表符(tab),或者二者混合所组
成的字符串。加(+)是指重复1次或多次;每重复一次,( |\t)则有可能匹配一个空格,或者一个制表符◆。但fred和barney
之间这些字符中(空格,制表符)的其中之一必须出现一次。

如果希望fred 和barney之间的字符是一样的,可以将模式写成/fred( +|\t+)barney/。在本例中,分隔符必须全是空格或者全
是制表符。

3.字符类

字符类,是方括号[]中的一列字符,可以匹配上括号内出现的任意单个字符。它匹配一个字符,但这个字符可以是列中的
任意一个。

例如,字符类[abcwxyz]可以匹配上括号内七个字母中的任意一个。为了方便,我们可以使用连字号(-)来表示某个范围的字
母,因此上例也可以写做[a-cw-z]。上面例子省略的字符不多,但像[a-zA-Z]将非常方便,利用它不需要输入52个字符◆。
你可以使用和双引号相同的字符简写方法,例如类[\000-\177]可以匹配上任意的七比特的ASCII字符。◆。当然,字符类
只是模式的一部分,单独的字符类在Perl中没什么实际的意义。例如,你可能见到如下的代码:

$_ = “The HAL-9000 requires authorization to continue.”;
if(/HAL-[0-9]+/){
print “The string mentions some model of HAL computer.\n”;
}

有时,指出没有被字符类包含的字符更加容易。字符类前使用符号^将取此字符类的补集。也就是说,[^def]]将匹配上这三
个字符中之外的任意单个字符。[^n\-z]将匹配上n, -, z之外的任何字符。(连接符(-)前面使用反斜线的原因是,它在此字符
类中有特别的含义(表示字符的范围:译者注)。但/HAL-[0-9]+/中第一个连接符(-)前不需要反斜线,因为此时的连接符不
会被理解为有特殊的含义。)

有一些字符类出现的非常频繁,因此提供了其简写形式。例如,任何数字的类,[0-9],可以被简写为:\d。因此,HAL这

个例子可以被写作/HAL-\d+/。

\w被称作“word’字符:[A-Za-z0-9_]。如果你的“words”由通常的字母,数字,下划线组成,那你将非常喜欢它。通常认
为“word”由字母,连接符(-),撇号(')◆组成,我们希望能改变这种定义◆。因此使用它,请记住我们对“word”的定义,
字母,数字,下划线组成。

\s对于匹配空白(whitespace)将非常方便。它等价
于[\f\t\n\r ],其含5个空白字符:格式符(form-feed);制表符(tab),换行符,回车,以及空格符。同其它简写符号一样,
\s 匹配此类中的单个字符,如果使用\s*将匹配任何个数的空白(包括没有),或者\s+匹配一个以上的空白(事实上,很少
见到单独使用\s,而不使用任何的数量词(*, +))。由于这些空白符看起来类似,因此可以使用这种简写形式,将它们统一处

你可能希望得到这三种简写形式的补集。如果那样的话,你可以使用[^\d], [^\w], 和[^\s],其含义分别是,非数
字的字符,非word(记住我们对word的定义)的字符,和非空白的字符。也可以使用它们对应的大写形式:\D, \W, \S来
完成。它们将匹配它们对应的小写形式不能匹配上的字符。

这些简写形式可以在字符类中使用,或者在大的字符类中的中括号里面使用。也就是说你可以使用/[\dA-Fa-f]+/来匹配十六
进制(底为16)的数字,它将ABCDEF(或者其小写形式)作为附加的数字(11到15)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值