正则表达式随手篇

最新推荐文章于 2021-11-19 10:54:49 发布

dongdang2021

最新推荐文章于 2021-11-19 10:54:49 发布

阅读量138

点赞数

原文链接：http://www.cnblogs.com/ms1976/p/9284495.html

版权

正则表达式：用来处理字符串

System.Text.RegularExpressions命名空间中的相关类

Capture 用于单个表达式捕获结果

CaptureCollection 用于一个序列进行字符串捕获

Group 表示单个捕获的结果

GroupCollection 表示捕获组的集会

Match 表示匹配单个正则表达式结果

MatchCollection 表示通过迭代方式应用正则表达式到字符串中

Regex 表示不可变的正则表达式

RegexCompilationInfo 将编译正则表达式需要提供信息

正则表达式的基本语法

在正则表达式中拥有一套自己的语法规则，常见语法包括；字符匹配、重复匹配、字符定位、转义匹配和其他高级语法（字符分组、字符替换和字符决策）；

字符匹配语法：

字符语法语法解释语法例子

\d 匹配数字（0~9） ‘\d’匹配8,不匹配12；

\D 匹配非数字 ‘\D’匹配c,不匹配3；

\w 匹配任意单字符 ‘\w\w’ 匹配A3,不匹配@3；

\W 匹配非单字符 ‘\W’匹配@,不匹配c；

\s 匹配空白字符 ‘\d\s\d’匹配3 d,不匹配abc；

\S 匹配非空字符 ‘\S\S\S’匹配A#4,不匹配3 d；

. 匹配任意字符 ‘....’匹配A$ 5,不匹配换行；

[…] 匹配括号中任意字符 [b-d]匹配b、c、d, 不匹配e；

[^…] 匹配非括号字符 [^b-z]匹配a,不匹配b-z的字符；

重复匹配语法：

重复语法语法解释语法例子

{n} 匹配n次字符 \d{3}匹配\d\d\d,不匹配\d\d或\d\d\d\d

{n,} 匹配n次和n次以上 \w{2}匹配\w\w和\w\w\w以上,不匹配\w

{n,m} 匹配n次上m次下 \s{1,3}匹配\s,\s\s,\s\s\s,不匹配\s\s\s\s

? 匹配0或1次 5?匹配5或0，不匹配非5和0

+ 匹配一次或多次 \S+匹配一个以上\S，不匹配非一个以上\S

* 匹配0次以上 \W*匹配0以上\W，不匹配非N*\W

字符定位语法：

重复语法语法解释语法例子

^ 定位后面模式开始位置

$ 前面模式位于字符串末端

\A 前面模式开始位置

\z 前面模式结束位置

\Z 前面模式结束位置(换行前)

\b 匹配一个单词边界

\B 匹配一个非单词边界

转义匹配语法：

转义语法涉及字符(语法解释) 语法例子

“\”+实际字符 \ . * + ? | ( ) { }^ $ 例如：\\匹配字符“\”

\n 匹配换行

\r 匹配回车

\t 匹配水平制表符

\v 匹配垂直制表符

\f 匹配换页

\nnn 匹配一个8进制ASCII

\xnn 匹配一个16进制ASCII

\unnnn 匹配4个16进制的Uniode

\c+大写字母匹配Ctrl-大写字母例如：\cS-匹配Ctrl+S

造正则表达的方法
构造正则表达式需要涉及Regex类，在Regex类中包括：IsMatch()、Replace()、Split()和Match的类；

(1) IsMatch()方法;

IsMatch()方法;
IsMatch()方法实际上是一个返回Bool值得方法，如果测试字符满足正则表达式返回True否则返回False；

(2) Replace()方法；
Replace()方法实际上是一种替换的方法，替换匹配正则表达式匹配模式；

(3) Split()方法；
Split()方法实际上是拆分的方法，根据匹配正则表达式进行拆分储存在字符串数组中；

构建表达式基本方法
构造Regex对象的构造函数包括两个重载，一个是不含参数的构造、另外一个是含有参数的构造函数；
基本形式Regex(string pattern);
重载形式Regex(string pattern,RegexOptions)；

补充：RegexOptions属于枚举类型，包括IgnoreCase(忽略大小写)、ReghtToLeft(从右向左)、None（默认）、CultureInvariant(忽略区域)、Multline(多行模式)和SingleLine（单行模式）；

常用正则表达式

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。

用户名：/^[a-z0-9_-]{3,16}$/

密码：/^[a-z0-9_-]{6,18}$/

十六进制值：/^#?([a-f0-9]{6}|[a-f0-9]{3})$/

电子邮箱：/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/

URL：/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/

IP 地址：/^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/

HTML 标签：/^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/

Unicode编码中的汉字范围：/^[u4e00-u9fa5],{0,}$/

匹配中文字符的正则表达式： [\u4e00-\u9fa5]
评注：匹配中文还真是个头疼的事，有了这个表达式就好办了

匹配双字节字符(包括汉字在内)：[^\x00-\xff]
评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

匹配空白行的正则表达式：\n\s*\r
评注：可以用来删除空白行

匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?</\1>|<.*? />
评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式：^\s*|\s*$
评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注：表单验证时很实用

匹配网址URL的正则表达式：[a-zA-z]+://[^\s]*
评注：网上流传的版本功能很有限，上面这个基本可以满足需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注：表单验证时很实用

匹配国内电话号码：\d{3}-\d{8}|\d{4}-\d{7}
评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号：[1-9][0-9]{4,}
评注：腾讯QQ号从10000开始

匹配中国大陆邮政编码：[1-9]\d{5}(?!\d)
评注：中国大陆邮政编码为6位数字

匹配身份证：\d{15}|\d{18}
评注：中国大陆的身份证为15位或18位

匹配ip地址：\d+\.\d+\.\d+\.\d+
评注：提取ip地址时有用

匹配特定数字：
^[1-9]\d*$　　 //匹配正整数
^-[1-9]\d*$ 　 //匹配负整数
^-?[1-9]\d*$　　 //匹配整数
^[1-9]\d*|0$　 //匹配非负整数（正整数 + 0）
^-[1-9]\d*|0$　　 //匹配非正整数（负整数 + 0）
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$　　 //匹配正浮点数
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$　 //匹配负浮点数
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$　 //匹配浮点数
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$　　//匹配非正浮点数（负浮点数 + 0）
评注：处理大量数据时有用，具体应用时注意修正

匹配特定字符串：
^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串
^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串
^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串
^\w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串

电子邮箱
”\w{1,}@w{1,}\\.”;//w是单字符[A-Z][a-z][0-9];{1,}是匹配数目多于或等于一

合法ISBN验证格式；
分析：ISBN格式为X-XXXXX-XXX-X;
正则表达式格式：\d-\d{5}-\d{3}-\d // \d匹配数字

((0[1-9])|(1[0-9])|(2[0-3])(:[0-5][1-9]){2}

转载于:https://www.cnblogs.com/ms1976/p/9284495.html