常见正则表达式

最新推荐文章于 2024-07-25 16:39:13 发布

无糖咖啡123

最新推荐文章于 2024-07-25 16:39:13 发布

阅读量626

点赞数

文章标签：正则表达式 url 电话腾讯 email html

本文链接：https://blog.csdn.net/sunny09290/article/details/6524896

版权

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。

匹配中文字符的正则表达式： [/u4e00-/u9fa5]
评注：匹配中文还真是个头疼的事，有了这个表达式就好办了

匹配双字节字符(包括汉字在内)：[^/x00-/xff]
评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

匹配空白行的正则表达式：/n/s*/r
评注：可以用来删除空白行

匹配HTML标记的正则表达式：<(/S*?)[^>]*>.*?<//1>|<.*? />
评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式：^/s*|/s*$
评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

匹配Email地址的正则表达式：/w+([-+.]/w+)*@/w+([-.]/w+)*/./w+([-.]/w+)*
评注：表单验证时很实用

匹配网址URL的正则表达式：[a-zA-z]+://[^/s]*
评注：网上流传的版本功能很有限，上面这个基本可以满足需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注：表单验证时很实用

匹配国内电话号码：/d{3}-/d{8}|/d{4}-/d{7}
评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号：[1-9][0-9]{4,}
评注：腾讯QQ号从10000开始

匹配中国邮政编码：[1-9]/d{5}(?!/d)
评注：中国邮政编码为6位数字

匹配身份证：/d{15}|/d{18}
评注：中国的身份证为15位或18位

匹配ip地址：/d+/./d+/./d+/./d+
评注：提取ip地址时有用

匹配特定数字：
^[1-9]/d*$　　 //匹配正整数
^-[1-9]/d*$ 　 //匹配负整数
^-?[1-9]/d*$　　 //匹配整数
^[1-9]/d*|0$　 //匹配非负整数（正整数 + 0）
^-[1-9]/d*|0$　　 //匹配非正整数（负整数 + 0）
^[1-9]/d*/./d*|0/./d*[1-9]/d*$　　 //匹配正浮点数
^-([1-9]/d*/./d*|0/./d*[1-9]/d*)$　 //匹配负浮点数
^-?([1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0)$　 //匹配浮点数
^[1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）
^(-([1-9]/d*/./d*|0/./d*[1-9]/d*))|0?/.0+|0$　　//匹配非正浮点数（负浮点数 + 0）
评注：处理大量数据时有用，具体应用时注意修正

匹配特定字符串：
^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串
^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串
^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串
^/w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串
评注：最基本也是最常用的一些表达式

"^/d+$"　　//非负整数（正整数 + 0）
"^[0-9]*[1-9][0-9]*$"　　//正整数
"^((-/d+)|(0+))$"　　//非正整数（负整数 + 0）
"^-[0-9]*[1-9][0-9]*$"　　//负整数
"^-?/d+$"　　　　//整数
"^/d+(/./d+)?$"　　//非负浮点数（正浮点数 + 0）
"^(([0-9]+/.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*/.[0-9]+)|([0-9]*[1-9][0-9]*))$"　　//正浮点数
"^((-/d+(/./d+)?)|(0+(/.0+)?))$"　　//非正浮点数（负浮点数 + 0）
"^(-(([0-9]+/.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*/.[0-9]+)|([0-9]*[1-9][0-9]*)))$"　　//负浮点数
"^(-?/d+)(/./d+)?$"　　//浮点数
"^[A-Za-z]+$"　　//由26个英文字母组成的字符串
"^[A-Z]+$"　　//由26个英文字母的大写组成的字符串
"^[a-z]+$"　　//由26个英文字母的小写组成的字符串
"^[A-Za-z0-9]+$"　　//由数字和26个英文字母组成的字符串
"^/w+$"　　//由数字、26个英文字母或者下划线组成的字符串
"^[/w-]+(/.[/w-]+)*@[/w-]+(/.[/w-]+)+$"　　　　//email地址
"^[a-zA-z]+://(/w+(-/w+)*)(/.(/w+(-/w+)*))*(/?/S*)?$"　　//url
/^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ // 年-月-日
/^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ // 月/日/年
"^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$" //Emil
"(d+-)?(d{4}-?d{7}|d{3}-?d{8}|^d{7,8})(-d+)?" //电话号码
"^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$" //IP地址

匹配中文字符的正则表达式： [/u4e00-/u9fa5]
匹配双字节字符(包括汉字在内)：[^/x00-/xff]
匹配空行的正则表达式：/n[/s| ]*/r
匹配HTML标记的正则表达式：/<(.*)>.*<///1>|<(.*) //>/
匹配首尾空格的正则表达式：(^/s*)|(/s*$)
匹配Email地址的正则表达式：/w+([-+.]/w+)*@/w+([-.]/w+)*/./w+([-.]/w+)*
匹配网址URL的正则表达式：^[a-zA-z]+://(//w+(-//w+)*)(//.(//w+(-//w+)*))*(//?//S*)?$
匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
匹配国内电话号码：(/d{3}-|/d{4}-)?(/d{8}|/d{7})?
匹配腾讯QQ号：^[1-9]*[1-9][0-9]*$

匹配IP字串、域名的正则表达式

正确的URL正则表达式应为：
    http(s)?://([/w-]+/.)+[/w-]+(/[/w- ./?%&=]*)?

正确的IP地址正则表达式应为：
    ((25[0-5])|(2[0-4]/d)|(1/d/d)|([1-9]/d)|/d)(/.((25[0-5])|(2[0-4]/d)|(1/d/d)|([1-9]/d)|/d)){3}
正确的URL加IP正则表达式应为：
    (http(s)?://([/w-]+/.)+[/w-]+(/[/w- ./?%&=]*)?)|(((25[0-5])|(2[0-4]/d)|(1/d/d)|([1-9]/d)|/d)(/.((25[0-5])|(2[0-4]/d)|(1/d/d)|([1-9]/d)|/d)){3})




    参考：URL:http://blog.csdn.net/SeaWave/archive/2007/03/05/1520988.aspx


    读了几页《Mastering Regular Expression》，有心想写一个能够匹配IP字串的正则表达式，实际尝试发现远没有自己写几行代码来判断来得容易，呵呵。

一个IP字串，由四段组成，每一段是0～255的数字，段与段之间用小数点隔开，比如61.139.2.69就是一个合法的IP字串。

如果正则表达式写成/d{1,3}(/./d{1,3}){3}无疑是不负责的，因为它可以匹配300.400.555.666这样的非法IP字串。

要匹配一个0～255之间的数，有几种匹配方式，下面是其中一种：

匹配正则表达式说明
0～9 /d 单个数字
10～99 [1-9]/d 两位数
100～199 1/d/d 百位为1的三位数
200～249 2[0-4]/d 三位数，百位是2，十位是0～9
250～255 25[0-5] 三位数，百位是2，十位是5，个位是0～5

写成正则表达式，即：(/d|([1-9]/d)|(1/d/d)|(2[0-4]/d)|(25[0-5]))，但是这样的正则表达式在匹配 254这样的字串时，会分别匹配2、5、4，得到3个匹配，达不到预期效果，正确做法是将次序颠倒为((25[0-5])|(2[0-4]/d)|(1 /d/d)|([1-9]/d)|/d)，因为在(xxx|yyy)这种匹配行为中，是从左向右搜索的。

完整的正则表达式是：

((25[0-5])|(2[0-4]/d)|(1/d/d)|([1-9]/d)|/d)(/.((25[0-5])|(2[0-4]/d)|(1/d/d)|([1-9]/d)|/d)){3}

按：

象061这样的高位为0的数是不能被匹配的。
太麻烦，不如自己写一小段代码解析来得容易，呵呵

--------------------------------------------------------------------------------

一个完整的域名，由根域、顶级域、二级、三级……域名构成，每级域名之间用点分开，每级域名由字母、数字和减号构成（第一个字母不能是减号），不区分大小写，长度不超过63。

很显然，单独的名字可以由正则表达式[a-zA-Z0-9][-a-zA-Z0-9]{0,62}来匹配，而完整的域名至少包括两个名字（比如 google.com，由google和com构成），最后可以有一个表示根域的点（在规范中，最后有一个点的才是完整域名，但一般认为包括两个以上名字的域名也是完整域名，哪怕它后面没有点）。

匹配完整域名的正则表达式：

[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

如果要增加限制的域名后缀，可修改为:

[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(//.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+//.(com|cn|org|net|gov)

无糖咖啡123

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
常见正则表达式

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。匹配中文字符的正则表达式： [/u4e00-/u9fa5]评注：匹配中文还真是个头疼的事，有了这个表达式就好办了匹配双字节字符(包括汉字在内)：[^/x00-/xff]评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）匹配空白行的正则表达式：/n/s*/r评注：可
复制链接

扫一扫