一本入门小书,不想涉及正则表达式,但是正则表达式与Ruby语言联系如此紧密,总让人感觉绕不开它。所以匆匆结束字符串的介绍,边学边说正则表达式。
正则表达式之强大、复杂,由来已久。自从1956年提出了“正则集代数”,正则表达式就逐渐被广泛地应用于操作系统,编程语言,算法设计,人工智能……
现在,除了Perl这样支持强大正则表达式功能的语言之外,Java,JavaScript, C# 等语言都纷纷支持正则表达式,只不过支持的程度不同。而Ruby正是一种强烈而灵活地支持正则表达式的语言。
下面,我努力尝试尽可能简单地描述Ruby中的正则表达式。
正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串;将匹配的子串做替换;或者从某个串中取出符合某个条件的子串;等等。
Ruby中,可以使用构造器显式地创建一个正则表达式,也可以使用字面值形式 /正则模式/ 来创建一个正则表达式。
- #E8.3-1.rb
- str="Hello,kaichuan,Welcome!"
- puts str =~ /kaichuan/ # => 6
- puts str =~ /a/ # => 7
- puts str =~ /ABC/ # => nil
我在字符串str中找我的名字 kaichuan。找到了,在字符串str的第6个字符处。和数组一样,字符串的起始索引位置是0。
在字符串str中找小写字母a,也找到了,第一个小写字母a在字符串str的第7个字符处;在字符串str中找大写字母ABC,没有找到。
匹配一个正则表达式,用“=~” ,不能用“==”。 “=~”用来比较是否符合一个正则表达式,返回模式在字符串中被匹配到的位置,否则返回nil。
不匹配一个正则表达式,用“!~” ,不能用“!=”。 “!~”用来断言不符合一个正则表达式,返回 true,flase。
- #E8.3-2.rb
- str="Hello,kaichuan,Welcome!"
- puts str !~ /kaichuan/ # => false
- puts str !~ /a/ # => false
- puts str !~ /ABC/ # => true
假设现在有一篇很短的文章如下:
This is windows2000 or windows98 system.
Windows system is BEST?
Windows2000 running in 12-31-2006,……
我们需要将文章中所有的windows2000 或者 windows98 换成 Windows XP,不论单词开头大小写,但是不带数字的windows不换;并且要把2006年12月31日改成当前时间,如何使用正则表达式来替换呢?
给出例程 E8.3-3.rb 之前,先学习一些烦琐的东西。
特别字符
|
描述
|
( )
|
标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用
\(
和
\)
。
|
[]
|
范围描述符
(
比如
,[a - z]
表示在
a
到
z
范围内的一个字母
)
,
要匹配
[
,请使用
\[
。
|
{}
|
标记限定符表达式。要匹配
{
,请使用
\{
。
|
\
|
将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。
例如,
'n'
匹配字符
'n'
。
'\n'
匹配换行符。序列
'\\'
匹配
"\"
,而
'\('
则匹配
"("
。
|
|
|
指明两项之间的一个选择。要匹配
|
,请使用
\|
。
|
.
|
匹配除换行符
\n
之外的任何单字符。要匹配
.
,请使用
\
。
|
非打印字符
|
描述
|
\f
|
匹配一个换页符。等价于
\x0c
。
|
\n
|
匹配一个换行符。等价于
\x0a
。
|
\r
|
匹配一个回车符。等价于
\x0d
。
|
\s
|
匹配任何空白字符,包括空格、制表符、换页符等等。等价于
[ \f\n\r\t\v]
。
|
\S
|
匹配任何非空白字符。等价于
[^ \f\n\r\t\v]
。
|
\t
|
匹配一个制表符。等价于
\x09
。
|
\w
|
匹配包括下划线的任何单词字符。等价于
'[A-Za-z0-9_]'
字母或数字
;
相当于
[0-9A-Za-z]
|
\W
|
匹配任何非单词字符。等价于
'[^A-Za-z0-9_]'
非字母
,
数字
|
\d
|
匹配一个数字字符。等价于
[0-9]
。
[0-9]
数字
;
相当于
[0-9]
|
\D
|
匹配一个非数字字符。等价于
[^0-9]
。非数字字符
|
\b
|
退格符
(0x08) (
仅在范围描述符内部时
)
|
* 和 + 限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个 ? 就可以实现非贪婪或最小匹配。
限定
符
|
描述
|
*
|
前面元素出现
0
或多次
。
*
等价于
{0,}
。
例如,
zo*
能匹配
"z"
以及
"zoo"
。
。要匹配
*
字符,请使用
\*
。
|
+
|
前面元素出现
1
或多次
。
+
等价于
{1,}
。
例如,
'zo+'
能匹配
"zo"
以及
"zoo"
,但不能匹配
"z"
。
要匹配
+
字符,请使用
\+
。
|
?
|
前面元素最多出现
1
次
;
相当于
{0,1}
。
例如,
”do(es)?”
可以匹配
“do”
或
“does”
中的
"do"
。
要匹配
?
字符,请使用
\?
。
|
{n}
|
n
是一个非负整数。匹配确定的
n
次。
例如,
'o{2}'
不能匹配
"Bob"
中的
'o'
,但是能匹配
"food"
中的两个
o
。
|
{n,}
|
n
是一个非负整数。至少匹配
n
次。
'o{1,}'
等价于
'o+'
。
'o{0,}'
则等价于
'o*'
。
例如,
'o{2,}'
不能匹配
"Bob"
中的
'o'
,但能匹配
"foooood"
中的所有
o
。
|
{n,m}
|
m
和
n
均为非负整数,其中
n <= m
。前面元素最少出现
n
次
,
最多出现
m
次
。
'o{0,1}'
等价于
'o?'
。请注意在逗号和两个数之间不能有空格。
例如,
"o{1,3}"
将匹配
"fooooood"
中的前三个
o
。
|
用来描述字符串或单词的边界, ^ 和 $ 分别指字符串的开始与结束, \b 描述单词的前或后边界, \B 表示非单词边界。不能对定位符使用限定符。
定位符
|
描述
|
^
|
匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配
^
字符本身,请使用
\^
。
|
$
|
匹配输入字符串的结尾位置。如果设置了
RegExp
对象的
Multiline
属性,则
$
也匹配
'\n'
或
'\r'
。要匹配
$
字符本身,请使用
\$
。
|
\b
|
匹配一个单词边界,也就是指单词和空格间的位置。例如,
'er\b'
可以匹配
"never"
中的
'er'
,但不能匹配
"verb"
中的
'er'
。
|
\B
|
匹配非单词边界。
'er\B'
能匹配
"verb"
中的
'er'
,但不能匹配
"never"
中的
'er'
|
相同优先级的从左到右进行运算,不同优先级的运算先高后低。各种操作符的优先级从高到低如下:
优先级
|
操作符
|
描述
|
高
|
\
|
转义符
|
|
(), []
|
圆括号和方括号
|
|
*, +, ?, {n}, {n,}, {n,m}
|
限定符
|
|
^, $,
|
位置和顺序
|
低
|
|
|
“
或
”
操作
|
正则表达式强大,但是枯燥。有一个办法,就是等你需要用的时候再来学习。
下面解释例程 E8.3-3.rb,
- #E8.3-3.rb
- strdoc=《<doc_eof span=""></doc_eof> DOC_EOF
- This is windows2000 or windows98 system.
- Windows system is BEST?
- Windows2000 running in 12-31-2006,……
- DOC_EOF
- re = /[w|W]indows(?:98|2000) /
- strdoc.gsub!(re, "Windows XP ")
- re = /[1-9][0-9]\-[1-9][0-9]\-\d\d\d\d/
- time = Time.now.strftime("%m-%d-%Y")
- strdoc.gsub!(re, time)
- puts strdoc
运行结果:
>ruby E8.3-3.rb
This is Windows XP or Windows XP system.
Windows system is BEST?
Windows XP running in 02-06-2007,……
>Exit code: 0
strdoc.gsub!(re, "Windows XP "),是把字符串strdoc里所有匹配正则模式re的子串替换为 "Windows XP "。 gsub!是替换所有子串。
strdoc.gsub!(re, time),是把字符串strdoc里所有匹配正则模式re的子串替换为字符串time。
time = Time.now.strftime("%m-%d-%Y"),取出系统当前时间,并且格式化成( 月-日-年 )的形式,生成一个字符串time。
完整阅读,请看我写的 Ruby语言中文教程all in one