1. 基本概念
在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。
2. 常见实例
1)以特定模式开头或结尾的模式
“ ^” : 表示开头;
“$” : 表示结尾;
"^The":表示所有以"The"开始的字符串("There","The cat"等);
"of despair$":表示所有以"of despair"结尾的字符串;
"^abc$":表示开始和结尾都是"abc"的字符串——呵呵,只有"abc"自己了;
"notice":表示任何包含"notice"的字符串。
2)通用替代符 “ * ” 和 “ + ” 和 “ ? ” 和 “ . ”
' * ' :出现次数大于等于0;
'+' :出现次数大于等于1;
'?' :出现0次或1次。
"ab*":表示一个字符串有一个a后面跟着零个或若干个b。("a", "ab", "abbb",……);
"ab+":表示一个字符串有一个a后面跟着至少一个b或者更多;
"ab?":表示一个字符串有一个a后面跟着零个或者一个b;
"a?b+$":表示在字符串的末尾有零个或一个a跟着一个或几个b。
'.' 可以替代任何一个字符
"a.[0-9]":表示一个字符串有一个"a"后面跟着一个任意字符和一个数字;
"^.{3}$":表示有任意三个字符的字符串(长度为3个字符);
3)重复次数描述
用大括号括起,用以表示重复次数的范围。
"ab{2}":表示一个字符串有一个a跟着2个b("abb");
"ab{2,}":表示一个字符串有一个a跟着至少2个b;
"ab{3,5}":表示一个字符串有一个a跟着3到5个b。
请注意,你必须指定范围的下限(如:"{0,2}"而不是"{,2}")。
还有,你可能注意到了,'*','+'和 '?'相当于"{0,}","{1,}"和"{0,1}"。
4)“或”操作
描述符: |
"hi|hello":表示一个字符串里有"hi"或者"hello";
"(b|cd)ef":表示"bef"或"cdef";
"(a|b)*c":表示一串"a""b"混合的字符串后面跟一个"c";
5)方括号
表示某些字符允许在一个字符串中的某一特定位置出现:
"[ab]":表示一个字符串有一个"a"或"b"(相当于"a|b");
"[a-d]":表示一个字符串包含小写的'a'到'd'中的一个(相当于"a|b|c|d"或者"[abcd]");
"^[a-zA-Z]":表示一个以字母开头的字符串;
"[0-9]%":表示一个百分号前有一位的数字;
",[a-zA-Z0-9]$":表示一个字符串以一个逗号后面跟着一个字母或数字结束。
6)用'^'表示不希望出现的字符
可以在方括号里用'^'表示不希望出现的字符,'^'应在方括号里的第一位。
如:"%[^a-zA-Z]%"表 示两个百分号中不应该出现字母。
为了逐字表达,必须在"^.$()|*+?{\"这些字符前加上转移字符'\'。请注意在方括号中,不需要转义字符。