2011-02-17 wcdj (1) 模式分组
(2) 择一匹配
(3) 字符集
(4) 字符集简写
(5) 反义简写
(1) 模式分组
圆括号 -- 用来分组,也是元字符。 print "模式分组\n"; $_ = "wcdj"; if (/wcdj+/) {# +表示>=1个j字符 print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } $_ = "wcdjwcdj"; if (/(wcdj)+/) {# 圆括号用于分组,+表示>=1个wcdj字符串 print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } 注意:
[1] 圆括号同时也使得部分字符串重新引用成为可能。可以用"反向引用"来引用圆括号中匹配的文字。
[2] 点号"."可以匹配任何非回车字符。
[3] 可以用多个括号来分成多组。 print "反向引用\n"; $_ = "abba"; if (/(.)\1/) {# 同'bb'相匹配 print "It matched same character next to itself!\n";# 输出此句 } else { print "not matched!\n"; } $_ = "abab"; if (/(.)\1/) {# 没有找到连续相同的2个字符 print "It matched same character next to itself!\n"; } else { print "not matched!\n";# 输出此句 } $_ = "a2wcdj bwcdj c"; if (/2(....) b\1/) {# 同'2wcdj bwcdj'相匹配 print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } print "用多个括号分成多组\n"; $_ = "a2abbc b2wccwj c"; if (/2(.)(.)\2\1/) {# 同'2wccw'相匹配 print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } $_ = "a2abbc bwccwj c"; if (/2(.)(.)\2\1/) {# \2反相引用第二组圆括号 print "It matched!\n"; } else { print "not matched!\n";# 输出此句 } Perl 5.10有一种新的反相引用写法。不再只是简单地用反斜线和组号,而是用了\g{N}这种写法。其中,N是想要反相引用的组号。
这种新写法的好处 :[1] 会更加清晰 [2] 排除二义性 [3] 可以用负数 print "5.010\n"; use 5.010; $_ = "1abb11c"; if (/(.)(.)\g{-1}11/) {# 相对反相引用,不是绝对位置的反相引用,匹配'abb11' print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } (2) 择一匹配
竖线(|)通常可以读成"或",意思是左边匹配或者右边匹配都行。
例如:
可以使用/wcdj( |\t)+gerry/ 这样的模式来匹配wcdj和gerry之间空格、制表符或两者组合出现一次以上的字符串。加号(+)表示重复一次或更多。在这两个名字之间至少要有一个空格或制表符。
若要求两个名字之间的字符必须都一样,则改为:/wcdj( +|\t+)gerry/ ,这样中间的分隔符就一定得全是空格或全是制表符。
(3) 字符集
字符集 -- 是指一串可能出现的字符集合,通过写在方括号([]) 内来表示。
注意:它只匹配单个字符,但可以是字符集里列出的任何一个。
例如:
字符集[abcxyz]会匹配这6个字符中的任何一个。
为了方便起见,可以使用连字符(-),写成[a-cx-z]
常用的经典字符集:[a-zA-Z],这个字符集可以匹配52(26*2)个字母中的任何一个。
注意:字符集只是完整模式的一部分,在Perl中它从来不会单独出现。
print "字符集\n"; $_ = "The HAL-9000 requires authorization to continue."; if (/HAL-[0-9]+/) { print "The string mentions some model of HAL computer.\n"; } 有时候,指定字符集范围"以外的"字符会比指定字符集"内"的字符更容易。可以在--字符集内部开头的地方--加上脱字符(^),表示这些字符除外。
例如:
[^def]会匹配这三个字符以外的任何字符。
[^n\-z]会匹配n、连字符与z以外的任何字符。
注意:这里的连字符要加上反斜线,因为它在字符集里具有特殊的意义。但在 /HAL-[0-9]+/ 里的第一个连字符则不需要反斜线,因为字符集括号以外的连字符没有特殊意义。
(4) 字符集简写
\d -- 代表任意数字的字符集[0-9]
\w -- 代表单词字符[A-Za-Z0-9_] (单词里应该只含有字母、数字和下划线,\w+ 匹配一个完整的单词)
\s -- 代表5种空白的字符集:换页、制表、换行、回车以及空格。[\f\t\n\r ]。(比较常见的是用 \s* 来匹配任意数目的空白或 \s+匹配一个以上的空白字符)
注意:Perl 5.10 增加了更多字符集来描述空白。
\h -- 代表字符集[\t ],即包含制表符和空格的字符集,匹配横向空白
\v -- 代表字符集[\f\n\r],匹配纵向的空格
\R -- 匹配任何类型的断行
print "字符集简写\n"; $_ = "There is a number 123 in this sentence.\n"; if (/\d/) { print "find digits!\n";# 输出此句 } else { print "no digits!\n"; } $_ = "There is no number in this sentence.\n"; if (/\d/) { print "find digits!\n"; } else { print "no digits!\n";# 输出此句 } $_ = "wcdj this_is_a_word gerry"; if (/wcdj \w+ gerry/) { print "find a word!\n";# 输出此句 } else { print "no word!\n"; } $_ = "wcdjgerry"; if (/wcdj\s*gerry/) { print "find >= 0 blank!\n";# 输出此句 } $_ = "wcdj gerry"; if (/wcdj \s+ gerry/) { print "find more than one blank!\n";# 输出此句 } else { print "no blank!\n"; } (5) 反义简写
[^\d],[^\w],[^\s]分别表示一个非数字、非词或者非空白字符。
其实它们的大写版本就是用来完成这种任务的:即,\D,\W,\S (这些大写版本能匹配相应小写版本范围 -- 以外的 -- 字符)
(2) 择一匹配
(3) 字符集
(4) 字符集简写
(5) 反义简写
(1) 模式分组
圆括号 -- 用来分组,也是元字符。 print "模式分组\n"; $_ = "wcdj"; if (/wcdj+/) {# +表示>=1个j字符 print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } $_ = "wcdjwcdj"; if (/(wcdj)+/) {# 圆括号用于分组,+表示>=1个wcdj字符串 print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } 注意:
[1] 圆括号同时也使得部分字符串重新引用成为可能。可以用"反向引用"来引用圆括号中匹配的文字。
[2] 点号"."可以匹配任何非回车字符。
[3] 可以用多个括号来分成多组。 print "反向引用\n"; $_ = "abba"; if (/(.)\1/) {# 同'bb'相匹配 print "It matched same character next to itself!\n";# 输出此句 } else { print "not matched!\n"; } $_ = "abab"; if (/(.)\1/) {# 没有找到连续相同的2个字符 print "It matched same character next to itself!\n"; } else { print "not matched!\n";# 输出此句 } $_ = "a2wcdj bwcdj c"; if (/2(....) b\1/) {# 同'2wcdj bwcdj'相匹配 print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } print "用多个括号分成多组\n"; $_ = "a2abbc b2wccwj c"; if (/2(.)(.)\2\1/) {# 同'2wccw'相匹配 print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } $_ = "a2abbc bwccwj c"; if (/2(.)(.)\2\1/) {# \2反相引用第二组圆括号 print "It matched!\n"; } else { print "not matched!\n";# 输出此句 } Perl 5.10有一种新的反相引用写法。不再只是简单地用反斜线和组号,而是用了\g{N}这种写法。其中,N是想要反相引用的组号。
这种新写法的好处 :[1] 会更加清晰 [2] 排除二义性 [3] 可以用负数 print "5.010\n"; use 5.010; $_ = "1abb11c"; if (/(.)(.)\g{-1}11/) {# 相对反相引用,不是绝对位置的反相引用,匹配'abb11' print "It matched!\n";# 输出此句 } else { print "not matched!\n"; } (2) 择一匹配
竖线(|)通常可以读成"或",意思是左边匹配或者右边匹配都行。
例如:
可以使用/wcdj( |\t)+gerry/ 这样的模式来匹配wcdj和gerry之间空格、制表符或两者组合出现一次以上的字符串。加号(+)表示重复一次或更多。在这两个名字之间至少要有一个空格或制表符。
若要求两个名字之间的字符必须都一样,则改为:/wcdj( +|\t+)gerry/ ,这样中间的分隔符就一定得全是空格或全是制表符。
(3) 字符集
字符集 -- 是指一串可能出现的字符集合,通过写在方括号([]) 内来表示。
注意:它只匹配单个字符,但可以是字符集里列出的任何一个。
例如:
字符集[abcxyz]会匹配这6个字符中的任何一个。
为了方便起见,可以使用连字符(-),写成[a-cx-z]
常用的经典字符集:[a-zA-Z],这个字符集可以匹配52(26*2)个字母中的任何一个。
注意:字符集只是完整模式的一部分,在Perl中它从来不会单独出现。
print "字符集\n"; $_ = "The HAL-9000 requires authorization to continue."; if (/HAL-[0-9]+/) { print "The string mentions some model of HAL computer.\n"; } 有时候,指定字符集范围"以外的"字符会比指定字符集"内"的字符更容易。可以在--字符集内部开头的地方--加上脱字符(^),表示这些字符除外。
例如:
[^def]会匹配这三个字符以外的任何字符。
[^n\-z]会匹配n、连字符与z以外的任何字符。
注意:这里的连字符要加上反斜线,因为它在字符集里具有特殊的意义。但在 /HAL-[0-9]+/ 里的第一个连字符则不需要反斜线,因为字符集括号以外的连字符没有特殊意义。
(4) 字符集简写
\d -- 代表任意数字的字符集[0-9]
\w -- 代表单词字符[A-Za-Z0-9_] (单词里应该只含有字母、数字和下划线,\w+ 匹配一个完整的单词)
\s -- 代表5种空白的字符集:换页、制表、换行、回车以及空格。[\f\t\n\r ]。(比较常见的是用 \s* 来匹配任意数目的空白或 \s+匹配一个以上的空白字符)
注意:Perl 5.10 增加了更多字符集来描述空白。
\h -- 代表字符集[\t ],即包含制表符和空格的字符集,匹配横向空白
\v -- 代表字符集[\f\n\r],匹配纵向的空格
\R -- 匹配任何类型的断行
print "字符集简写\n"; $_ = "There is a number 123 in this sentence.\n"; if (/\d/) { print "find digits!\n";# 输出此句 } else { print "no digits!\n"; } $_ = "There is no number in this sentence.\n"; if (/\d/) { print "find digits!\n"; } else { print "no digits!\n";# 输出此句 } $_ = "wcdj this_is_a_word gerry"; if (/wcdj \w+ gerry/) { print "find a word!\n";# 输出此句 } else { print "no word!\n"; } $_ = "wcdjgerry"; if (/wcdj\s*gerry/) { print "find >= 0 blank!\n";# 输出此句 } $_ = "wcdj gerry"; if (/wcdj \s+ gerry/) { print "find more than one blank!\n";# 输出此句 } else { print "no blank!\n"; } (5) 反义简写
[^\d],[^\w],[^\s]分别表示一个非数字、非词或者非空白字符。
其实它们的大写版本就是用来完成这种任务的:即,\D,\W,\S (这些大写版本能匹配相应小写版本范围 -- 以外的 -- 字符)