正则表达式使用详解

最新推荐文章于 2024-08-22 14:16:11 发布

tiger9452

最新推荐文章于 2024-08-22 14:16:11 发布

阅读量585

点赞数

分类专栏：学习笔记文章标签：正则表达式 javascript windows email input string

学习笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

如果我们问那些UNIX系统的爱好者他们最喜欢什么，答案除了稳定的系统和可以远程启动之外，十有八九的人会提到正则表达式；如果我们再问他们最头痛的是什么，可能除了复杂的进程控制和安装过程之外，还会是正则表达式。那么正则表达式到底是什么？如何才能真正的掌握正则表达式并正确的加以灵活运用？本文将就此展开介绍，希望能够对那些渴望了解和掌握正则表达式的读者有所助益。
入门简介
　　简单的说，正则表达式是一种可以用于模式匹配和替换的强有力的工具。我们可以在几乎所有的基于UNIX系统的工具中找到正则表达式的身影，例如，vi编辑器，Perl或PHP脚本语言，以及awk或sed shell程序等。此外，象JavaScript这种客户端的脚本语言也提供了对正则表达式的支持。由此可见，正则表达式已经超出了某种语言或某个系统的局限，成为人们广为接受的概念和功能。
　　正则表达式可以让用户通过使用一系列的特殊字符构建匹配模式，然后把匹配模式与数据文件、程序输入以及WEB页面的表单输入等目标对象进行比较，根据比较对象中是否包含匹配模式，执行相应的程序。
　　举例来说，正则表达式的一个最为普遍的应用就是用于验证用户在线输入的邮件地址的格式是否正确。如果通过正则表达式验证用户邮件地址的格式正确，用户所填写的表单信息将会被正常处理；反之，如果用户输入的邮件地址与正则表达的模式不匹配，将会弹出提示信息，要求用户重新输入正确的邮件地址。由此可见正则表达式在WEB应用的逻辑判断中具有举足轻重的作用。
基本语法
　　在对正则表达式的功能和作用有了初步的了解之后，我们就来具体看一下正则表达式的语法格式。
　　正则表达式的形式一般如下：
　　/love/
　　其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。为了能够使用户更加灵活的定制模式内容，正则表达式提供了专门的“元字符”。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式。
　　较为常用的元字符包括： “+”， “*”，以及 “?”。其中，“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次，“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次，而“?”元字符规定其前导对象必须在目标对象中连续出现零次或一次。
　　下面，就让我们来看一下正则表达式元字符的具体应用。
　　/fo+/
　　因为上述正则表达式中包含“+”元字符，表示可以与目标对象中的 “fool”, “fo”, 或者 “football”等在字母f后面连续出现一个或多个字母o的字符串相匹配。
　　/eg*/
　　因为上述正则表达式中包含“*”元字符，表示可以与目标对象中的 “easy”, “ego”, 或者 “egg”等在字母e后面连续出现零个或多个字母g的字符串相匹配。
　　/Wil?/
　　因为上述正则表达式中包含“？”元字符，表示梢杂肽勘甓韵笾械?“Will”, 或者 “Wilson”,等在字母i后面连续出现零个或一个字母l的字符串相匹配。
　　除了元字符之外，用户还可以精确指定模式在匹配对象中出现的频率。例如，
　　/jim{2,6}/
　　上述正则表达式规定字符m可以在匹配对象中连续出现2-6次，因此，上述正则表达式可以同jimmy或jimmmmmy等字符串相匹配。
　　在对如何使用正则表达式有了初步了解之后，我们来看一下其它几个重要的元字符的使用方式。
　　s：用于匹配单个空格符，包括tab键和换行符；
　　S：用于匹配除单个空格符之外的所有字符；
　　d：用于匹配从0到9的数字；
　　w：用于匹配字母，数字或下划线字符；
　　W：用于匹配所有与w不匹配的字符；
　　. ：用于匹配除换行符之外的所有字符。
　　（说明：我们可以把s和S以及w和W看作互为逆运算）
下面，我们就通过实例看一下如何在正则表达式中使用上述元字符。
　　/s+/
　　上述正则表达式可以用于匹配目标对象中的一个或多个空格字符。
　　/d000/
　　如果我们手中有一份复杂的财务报表，那么我们可以通过上述正则表达式轻而易举的查找到所有总额达千元的款项。
　　除了我们以上所介绍的元字符之外，正则表达式中还具有另外一种较为独特的专用字符，即定位符。定位符用于规定匹配模式在目标对象中的出现位置。
　　较为常用的定位符包括： “^”, “$”, “ ” 以及 “B”。其中，“^”定位符规定匹配模式必须出现在目标字符串的开头，“$”定位符规定匹配模式必须出现在目标对象的结尾，定位符规定匹配模式必须出现在目标字符串的开头或结尾的两个边界之一，而“B”定位符则规定匹配对象必须位于目标字符串的开头和结尾两个边界之内，即匹配对象既不能作为目标字符串的开头，也不能作为目标字符串的结尾。同样，我们也可以把“^”和“$”以及“ ”和“B”看作是互为逆运算的两组定位符。举例来说：
　　/^hell/
　　因为上述正则表达式中包含“^”定位符，所以可以与目标对象中以 “hell”, “hello”或 “hellhound”开头的字符串相匹配。
　　/ar$/
　　因为上述正则表达式中包含“$”定位符，所以可以与目标对象中以 “car”, “bar”或 “ar” 结尾的字符串相匹配。
　　/ bom/
　　因为上述正则表达式模式以“ ”定位符开头，所以可以与目标对象中以 “bomb”, 或 “bom”开头的字符串相匹配。
　　/man /
　　因为上述正则表达式模式以“ ”定位符结尾，所以可以与目标对象中以 “human”, “woman”或 “man”结尾的字符串相匹配。
　　为了能够方便用户更加灵活的设定匹配模式，正则表达式允许使用者在匹配模式中指定某一个范围而不局限于具体的字符。例如：
　　/[A-Z]/
　　上述正则表达式将会与从A到Z范围内任何一个大写字母相匹配。
　　/[a-z]/
　　上述正则表达式将会与从a到z范围内任何一个小写字母相匹配。
　　/[0-9]/
　　上述正则表达式将会与从0到9范围内任何一个数字相匹配。
　　/([a-z][A-Z][0-9])+/
　　上述正则表达式将会与任何由字母和数字组成的字符串，如 “aB0” 等相匹配。这里需要提醒用户注意的一点就是可以在正则表达式中使用 “()” 把字符串组合在一起。“()”符号包含的内容必须同时出现在目标对象中。因此，上述正则表达式将无法与诸如 “abc”等的字符串匹配，因为“abc”中的最后一个字符为字母而非数字。
　　如果我们希望在正则表达式中实现类似编程逻辑中的“或”运算，在多个不同的模式中任选一个进行匹配的话，可以使用管道符 “|”。例如：
　　/to|too|2/
　　上述正则表达式将会与目标对象中的 “to”, “too”, 或 “2” 相匹配。
　　正则表达式中还有一个较为常用的运算符，即否定符 “[^]”。与我们前文所介绍的定位符 “^” 不同，否定符 “[^]”规定目标对象中不能存在模式中所规定的字符串。例如：
　　/[^A-C]/
　　上述字符串将会与目标对象中除A，B，和C之外的任何字符相匹配。一般来说，当“^”出现在 “[]”内时就被视做否定运算符；而当“^”位于“[]”之外，或没有“[]”时，则应当被视做定位符。
　　最后，当用户需要在正则表达式的模式中加入元字符，并查找其匹配对象时，可以使用转义符“”。例如：
　　/Th*/
　　上述正则表达式将会与目标对象中的“Th*”而非“The”等相匹配。
使用实例
　　在对正则表达式有了较为全面的了解之后，我们就来看一下如何在Perl，PHP，以及JavaScript中使用正则表达式。
　　通常，Perl中正则表达式的使用格式如下：
　　operator / regular-expression / string-to-replace / modifiers
　　运算符一项可以是m或s，分别代表匹配运算和替换运算。
　　其中，正则表达式一项是将要进行匹配或替换操作的模式，可以由任意字符，元字符，或定位符等组成。替换字符串一项是使用s运算符时，对查找到的模式匹配对象进行替换的字符串。最后的参数项用来控制不同的匹配或替换方式。例如：
　　s/geed/good/
　　将会在目标对象中查找第一个出现的geed字串，并将其替换为good。如果我们希望在目标对象的全局范围内执行多次查找—替换操作的话，可以使用参数 “g”，即s/love/lust/g。
　　此外，如果我们不需要限制匹配的大小写形式的话，可以使用参数 “i ”。例如，
　　m/JewEL/i
　　上述正则表达式将会与目标对象中的jewel，Jewel，或JEWEL相匹配。
　　在Perl中，使用专门的运算符“=~”指定正则表达式的匹配对象。例如：
　　$flag =~ s/abc/ABC/
　　上述正则表达式将会把变量$flag中的字串abc替换为ABC。
　　下面，我们就在Perl程序中加入正则表达式，验证用户邮件地址格式的有效性。代码如下：
　　#!/usr/bin/perl
　　# get input
　　print “What's your email address? ”;
　　$email = <>
　　chomp($email);
　　# match and display result
　　if($email =~ /^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(.[a-zA-Z0-9_-])+/)
　　{
　　print(“Your email address is correct! ”);
　　}
　　else
　　　{
　　　　print(“Please try again! ”);
　　　}
如果用户更偏爱PHP的话，可以使用ereg()函数进行模式匹配操作。ereg()函数的使用格式如下：
　　 ereg(pattern, string)
　　其中，pattern代表正则表达式的模式，而string则是执行查找替换操作的目标对象。同样是验证邮件地址，使用PHP编写的程序代码如下：
　　<?php
　　 if (ereg(“^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(.[a-zA-Z0-9_-])+”,$email))
　　　 { echo “Your email address is correct!”;}
　　 else
　　　 { echo “Please try again!”;}
　　 ?>
　　最后，我们在来看一下JavaScript。JavaScript 1.2中带有一个功能强大的RegExp()对象，可以用来进行正则表达式的匹配操作。其中的test()方法可以检验目标对象中是否包含匹配模式，并相应的返回true或false。
　　我们可以使用JavaScript编写以下脚本，验证用户输入的邮件地址的有效性。
　　<html>
　　 <head>
　　　 < language="Javascript1.2">
　　　　 
　　　 </script>
　　　</head>
　　 <body>
　　 <form onSubmit="return verifyAddress(this);">
　　　<input name="email" type="text">
　　　<input type="submit" value="提交">
　　　</form>
　　</body>
　</html>

正则表达式对象
本对象包含正则表达式模式以及表明如何应用模式的标志。
语法1re=/pattern/[flags]
语法2re=newRegExp("pattern",["flags"])
参数
re
必选项。将要赋值为正则表达式模式的变量名。
Pattern
必选项。要使用的正则表达式模式。如果使用语法1，用"/"字符分隔模式。如果用语法2，用引号将模式引起来。

Flags
可选项。如果使用语法2要用引号将flag引起来。标志可以组合使用，可用的有：
?g（全文查找出现的所有pattern）
?i（忽略大小写）
?m（多行查找）
示例
下面的示例创建一个包含正则表达式模式及相关标志的对象(re)，向您演示正则表达式对象的用法。在本例中，作为结果的正则表达式对象又用于match方法中：

functionMatchDemo()
{
varr,re;//声明变量。
vars="TheraininSpainfallsmainlyintheplain";
re=newRegExp("ain","g");//创建正则表达式对象。
r=s.match(re);//在字符串s中查找匹配。
return(r);
}

exec方法
用正则表达式模式在字符串中运行查找，并返回包含该查找结果的一个数组。
rgExp.exec(str)
参数
rgExp
必选项。包含正则表达式模式和可用标志的正则表达式对象。
str
必选项。要在其中执行查找的String对象或字符串文字。
说明
如果exec方法没有找到匹配，则它返回null。如果它找到匹配，则exec方法返回一个数组，并且更新全局RegExp对象的属性，以反映匹配结果。数组的0元素包含了完整的匹配，而第1到n元素中包含的是匹配中出现的任意一个子匹配。这相当于没有设置全局标志(g)的match方法。
如果为正则表达式设置了全局标志，exec从以lastIndex的值指示的位置开始查找。如果没有设置全局标志，exec忽略lastIndex的值，从字符串的起始位置开始搜索。
exec方法返回的数组有三个属性，分别是input、index和lastIndex。Input属性包含了整个被查找的字符串。Index属性中包含了整个被查找字符串中被匹配的子字符串的位置。LastIndex属性中包含了匹配中最后一个字符的下一个位置。
示例
下面的例子举例说明了exec方法的用法：

functionRegExpTest()
{
varver=Number(ScriptEngineMajorVersion()+"."+ScriptEngineMinorVersion())
if(ver>=5.5){//测试JScript的版本。
varsrc="TheraininSpainfallsmainlyintheplain.";
varre=//w+/g;//创建正则表达式模式。
vararr;
while((arr=re.exec(src))!=null)
document.write(arr.index+"-"+arr.lastIndex+arr+"/t");
}
else{
alert("请使用JScript的更新版本");
}
}

返回值：0-3The4-8rain9-11in12-17Spain18-23falls24-30mainly31-33in34-37the38-43plain
test方法
返回一个Boolean值，它指出在被查找的字符串中是否存在模式。
rgexp.test(str)
参数
rgexp
必选项。包含正则表达式模式或可用标志的正则表达式对象。
str
必选项。要在其上测试查找的字符串。
说明
test方法检查在字符串中是否存在一个模式，如果存在则返回true，否则就返回false。
全局RegExp对象的属性不由test方法来修改。
示例
下面的例子举例说明了test方法的用法：

functionTestDemo(re,s)
{
vars1;//声明变量。
//检查字符串是否存在正则表达式。
if(re.test(s))//测试是否存在。
s1="contains";//s包含模式。
else
s1="doesnotcontain";//s不包含模式。
return("'"+s+"'"+s1+"'"+re.source+"'");//返回字符串。
}

函数调用：document.write(TestDemo(/ain+/,"TheraininSpainfallsmainlyintheplain."));
返回值：'TheraininSpainfallsmainlyintheplain.'contains'ain+'
match方法
使用正则表达式模式对字符串执行查找，并将包含查找的结果作为数组返回。
stringObj.match(rgExp)
参数
stringObj
必选项。对其进行查找的String对象或字符串文字。
rgExp
必选项。为包含正则表达式模式和可用标志的正则表达式对象。也可以是包含正则表达式模式和可用标志的变量名或字符串文字。
说明
如果match方法没有找到匹配，返回null。如果找到匹配返回一个数组并且更新全局RegExp对象的属性以反映匹配结果。
match方法返回的数组有三个属性：input、index和lastIndex。Input属性包含整个的被查找字符串。Index属性包含了在整个被查找字符串中匹配的子字符串的位置。LastIndex属性包含了最后一次匹配中最后一个字符的下一个位置。
如果没有设置全局标志(g)，数组的0元素包含整个匹配，而第1到n元素包含了匹配中曾出现过的任一个子匹配。这相当于没有设置全局标志的exec方法。如果设置了全局标志，元素0到n中包含所有匹配。
示例
下面的示例演示了match方法的用法：

functionMatchDemo()
{
varr,re;//声明变量。
vars="TheraininSpainfallsmainlyintheplain";
re=/ain/i;//创建正则表达式模式。
r=s.match(re);//尝试匹配搜索字符串。
return(r);//返回第一次出现"ain"的地方。
}

返回值：ain
本示例说明带g标志设置的match方法的用法。

functionMatchDemo()
{
varr,re;//声明变量。
vars="TheraininSpainfallsmainlyintheplain";
re=/ain/ig;//创建正则表达式模式。
r=s.match(re);//尝试去匹配搜索字符串。
return(r);//返回的数组包含了所有"ain"
//出现的四个匹配。
}

返回值：ain,ain,ain,ain
上面几行代码演示了字符串文字的match方法的用法。
varr,re="Spain";
r="TheraininSpain".replace(re,"Canada");
returnr;
返回值：TheraininCanada
search方法
返回与正则表达式查找内容匹配的第一个子字符串的位置。
stringObj.search(rgExp)
参数
stringObj
必选项。要在其上进行查找的String对象或字符串文字。
rgExp
必选项。包含正则表达式模式和可用标志的正则表达式对象。
说明
search方法指明是否存在相应的匹配。如果找到一个匹配，search方法将返回一个整数值，指明这个匹配距离字符串开始的偏移位置。如果没有找到匹配，则返回-1。
示例
下面的示例演示了search方法的用法。

functionSearchDemo()
{
varr,re;//声明变量。
vars="TheraininSpainfallsmainlyintheplain.";
re=/falls/i;//创建正则表达式模式。
r=s.search(re);//查找字符串。
return(r);//返回Boolean结果。
}

返回值：18

下表是元字符及其在正则表达式上下文中的行为的一个完整列表：

字符描述
/将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。例如，'n'匹配字符"n"。'/n'匹配一个换行符。序列'//'匹配"/"而"/("则匹配"("。
^匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配'/n'或'/r'之后的位置。
$匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配'/n'或'/r'之前的位置。
*匹配前面的子表达式零次或多次。例如，zo*能匹配"z"以及"zoo"。*等价于{0,}。
+匹配前面的子表达式一次或多次。例如，'zo+'能匹配"zo"以及"zoo"，但不能匹配"z"。+等价于{1,}。
?匹配前面的子表达式零次或一次。例如，"do(es)?"可以匹配"do"或"does"中的"do"。?等价于{0,1}。
{n}n是一个非负整数。匹配确定的n次。例如，'o{2}'不能匹配"Bob"中的'o'，但是能匹配"food"中的两个o。
{n,}n是一个非负整数。至少匹配n次。例如，'o{2,}'不能匹配"Bob"中的'o'，但能匹配"foooood"中的所有o。'o{1,}'等价于'o+'。'o{0,}'则等价于'o*'。
{n,m}m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。刘，"o{1,3}"将匹配"fooooood"中的前三个o。'o{0,1}'等价于'o?'。请注意在逗号和两个数之间不能有空格。
?当该字符紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串"oooo"，'o+?'将匹配单个"o"，而'o+'将匹配所有'o'。
.匹配除"/n"之外的任何单个字符。要匹配包括'/n'在内的任何字符，请使用象'[./n]'的模式。
(pattern)匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用'/('或'/)'。
(?:pattern)匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用"或"字符(|)来组合一个模式的各个部分是很有用。例如，'industr(?:y|ies)就是一个比'industry|industries'更简略的表达式。
(?=pattern)正向预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，'Windows(?=95|98|NT|2000)'能匹配"Windows2000"中的"Windows"，但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)负向预查，在任何不匹配Negativelookaheadmatchesthesearchstringatanypointwhereastringnotmatchingpattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如'Windows(?!95|98|NT|2000)'能匹配"Windows3.1"中的"Windows"，但不能匹配"Windows2000"中的"Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
x|y匹配x或y。例如，'z|food'能匹配"z"或"food"。'(z|f)ood'则匹配"zood"或"food"。
[xyz]字符集合。匹配所包含的任意一个字符。例如，'[abc]'可以匹配"plain"中的'a'。
[^xyz]负值字符集合。匹配未包含的任意字符。例如，'[^abc]'可以匹配"plain"中的'p'。
[a-z]字符范围。匹配指定范围内的任意字符。例如，'[a-z]'可以匹配'a'到'z'范围内的任意小写字母字符。
[^a-z]负值字符范围。匹配任何不在指定范围内的任意字符。例如，'[^a-z]'可以匹配任何不在'a'到'z'范围内的任意字符。
/b匹配一个单词边界，也就是指单词和空格间的位置。例如，'er/b'可以匹配"never"中的'er'，但不能匹配"verb"中的'er'。
/B匹配非单词边界。'er/B'能匹配"verb"中的'er'，但不能匹配"never"中的'er'。
/cx匹配由x指明的控制字符。例如，/cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的'c'字符。
/d匹配一个数字字符。等价于[0-9]。
/D匹配一个非数字字符。等价于[^0-9]。
/f匹配一个换页符。等价于/x0c和/cL。
/n匹配一个换行符。等价于/x0a和/cJ。
/r匹配一个回车符。等价于/x0d和/cM。
/s匹配任何空白字符，包括空格、制表符、换页符等等。等价于[/f/n/r/t/v]。
/S匹配任何非空白字符。等价于[^/f/n/r/t/v]。
/t匹配一个制表符。等价于/x09和/cI。
/v匹配一个垂直制表符。等价于/x0b和/cK。
/w匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
/W匹配任何非单词字符。等价于'[^A-Za-z0-9_]'。
/xn匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，'/x41'匹配"A"。'/x041'则等价于'/x04'&"1"。正则表达式中可以使用ASCII编码。.
/num匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，'(.)/1'匹配两个连续的相同字符。
/n标识一个八进制转义值或一个后向引用。如果/n之前至少n个获取的子表达式，则n为后向引用。否则，如果n为八进制数字(0-7)，则n为一个八进制转义值。
/nm标识一个八进制转义值或一个后向引用。如果/nm之前至少有isprecededbyatleastnm个获取得子表达式，则nm为后向引用。如果/nm之前至少有n个获取，则n为一个后跟文字m的后向引用。如果前面的条件都不满足，若n和m均为八进制数字(0-7)，则/nm将匹配八进制转义值nm。
/nml如果n为八进制数字(0-3)，且m和l均为八进制数字(0-7)，则匹配八进制转义值nml。
/un匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，/u00A9匹配版权符号(?)。

优先权顺序
在构造正则表达式之后，就可以象数学表达式一样来求值，也就是说，可以从左至右并按照一个优先权顺序来求值。

下表从最高优先级到最低优先级列出各种正则表达式操作符的优先权顺序：

操作符描述
/转义符
(),(?:),(?=),[]圆括号和方括号
*,+,?,{n},{n,},{n,m}限定符
^,$,/anymetacharacter位置和顺序
|“或”操作

常用的正则表达式

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。

匹配中文字符的正则表达式： [/u4e00-/u9fa5]
评注：匹配中文还真是个头疼的事，有了这个表达式就好办了

匹配双字节字符(包括汉字在内)：[^/x00-/xff]
评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

匹配空白行的正则表达式：/n/s*/r
评注：可以用来删除空白行

匹配HTML标记的正则表达式：<(/S*?)[^>]*>.*?|<.*? />
评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式：^/s*|/s*$
评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

匹配Email地址的正则表达式：/w+([-+.]/w+)*@/w+([-.]/w+)*/./w+([-.]/w+)*
评注：表单验证时很实用

匹配网址URL的正则表达式：[a-zA-z]+://[^/s]*
评注：网上流传的版本功能很有限，上面这个基本可以满足需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注：表单验证时很实用

匹配国内电话号码：/d{3}-/d{8}|/d{4}-/d{7}
评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号：[1-9][0-9]{4,}
评注：腾讯QQ号从10000开始

匹配中国邮政编码：[1-9]/d{5}(?!/d)
评注：中国邮政编码为6位数字

匹配身份证：/d{15}|/d{18}
评注：中国的身份证为15位或18位

匹配ip地址：/d+/./d+/./d+/./d+
评注：提取ip地址时有用

匹配特定数字：
^[1-9]/d*$　　 //匹配正整数
^-[1-9]/d*$ 　 //匹配负整数
^-?[1-9]/d*$　　 //匹配整数
^[1-9]/d*|0$　 //匹配非负整数（正整数 + 0）
^-[1-9]/d*|0$　　 //匹配非正整数（负整数 + 0）
^[1-9]/d*/./d*|0/./d*[1-9]/d*$　　 //匹配正浮点数
^-([1-9]/d*/./d*|0/./d*[1-9]/d*)$　 //匹配负浮点数
^-?([1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0)$　 //匹配浮点数
^[1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）
^(-([1-9]/d*/./d*|0/./d*[1-9]/d*))|0?/.0+|0$　　//匹配非正浮点数（负浮点数 + 0）
评注：处理大量数据时有用，具体应用时注意修正

匹配特定字符串：
^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串
^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串
^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串
^/w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串
评注：最基本也是最常用的一些表达式

tiger9452

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式使用详解

如果我们问那些UNIX系统的爱好者他们最喜欢什么，答案除了稳定的系统和可以远程启动之外，十有八九的人会提到正则表达式；如果我们再问他们最头痛的是什么，可能除了复杂的进程控制和安装过程之外，还会是正则表达式。那么正则表达式到底是什么？如何才能真正的掌握正则表达式并正确的加以灵活运用？本文将就此展开介绍，希望能够对那些渴望了解和掌握正则表达式的读者有所助益。入门简介　　简单的说，正则表达
复制链接

扫一扫

专栏目录