黑马程序员正则表达式总结

最新推荐文章于 2024-09-29 14:06:04 发布

师弟

最新推荐文章于 2024-09-29 14:06:04 发布

阅读量632

点赞数

分类专栏：正则表达式

正则表达式专栏收录该内容

1 篇文章 0 订阅

订阅专栏

---------------------- ASP.Net+Android+IOS开发、 .Net培训、期待与您交流！ ----------------------

(这些内容copy至传智播客的ppt)

什么是正则表达式：
1.正则表达式是用来进行文本处理的技术，是语言无关的，在几乎所有语言中都有实现。javascript中还会用到。【正则表达式是对文本、对字符串操作的。】
2.一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。
3.就像通配符“*.jpg”、“%ab%”，它是对字符串进行匹配的特殊字符串
4.理解正则表达式能做什么（字符串的匹配、字符串的提取、字符串的替换），掌握常用的正则表达式用法，以后用到再查就行。

元字符
1. .：匹配除\n之外的任何单个字符。例如正则表达式“b.g”能匹配如下字符串：“big”、“bug”、“b g”，但是不匹配“buug”，“b..g”可以匹配“buug”。
2. [ ] ：匹配括号中的任何一个字符。例如正则表达式“b[aui]g”匹配bug、big和bag，但是不匹配beg、baug。可以在括号中使用连字符“-”来指定字符的区间来简化表示，例如正则表达式[0-9]可以匹配任何数字字符，这样正则表达式“a[0-9]c”等价于“a[0123456789]c”就可以匹配“a0c”、“a1c”、“a2c”等字符串；还可以制定多个区间，例如“[A-Za-z]”可以匹配任何大小写字母，“[A-Za-z0-9]”可以匹配任何的大小写字母或者数字。
3. | ：将两个匹配条件进行逻辑“或”运算。‘z|food’ 能匹配 “z” 或 “food”。‘(z|f)ood’ 则匹配 “zood” 或 “food”。 //注意^$问题。
4. ( ) ：将 () 之间括起来的表达式定义为“组”(group)，并且将匹配这个表达式的字符保存到一个临时区域,这个元字符在字符串提取的时候非常有用。把一些字符表示为一个整体。改变优先级、定义提取组两个作用。

5. *：匹配0至多个在它之前的子表达式，和通配符*没关系。例如正则表达式“zo*”（等同于z(o)*）能匹配 “z” 、“zo”以及 “zoo”；因此“.*”意味着能够匹配任意字符串。"z(b|c)*"→zb、zbc、zcb、zccc、zbbbccc。"z(ab)*"能匹配z、zab、zabab（用括号改变优先级）。
6. + ：匹配前面的子表达式一次或多次，和*对比（0到多次）。例如正则表达式9+匹配9、99、999等。 “zo+”能匹配 “zo”以及 “zoo” ，不能匹配"z"。
7. ? ：匹配前面的子表达式零次或一次。例如，“do(es)?” 可以匹配 “do” 或 “does” 。一般用来匹配“可选部分”。（终止贪婪模式）
8. {n} ：匹配确定的 n 次。“zo{2}”→zoo。例如，“e{2}” 不能匹配“bed”中的“e”，但是能匹配“seed”中的两个“e”。 //seeeed,不可以。
9. {n,} :至少匹配n次。例如，“e{2,}”不能匹配“bed”中的“e”，但能匹配 “seeeeeeeed”中的所有“e”。
10. {n,m} ：最少匹配 n 次且最多匹配 m 次。“e{1,3}”将匹配“seeeeeeeed”中的前三个“e”。 {2,5}//bed,seed,seeed;beeeeed错误。
限定符：限定前面的正则表达式出现的次数。

11. ^（shift+6）：匹配一行的开始。例如正则表达式“^regex”能够匹配字符串“regex我会用”的开始，但是不能匹配“我会用regex”。
12. ^另外一种意思：非！（[^0-9]）
13. $ ：匹配行结束符。例如正则表达式“浮云$” 能够匹配字符串“一切都是浮云”的末尾，但是不能匹配字符串“浮云呀”

简写表达式
注意这些简写表达式是不考虑转义符的，这里的\就表示字符\，而不是C#字符串级别的\，在C#代码中需要使用@或者\双重转义。区分C#级别的转移和正则表达式级别的转移，恰好C#的转义符和正则表达式的转义符都是\而已。正则表达式的转义是在C#之后的（层层盘剥）。把C#的转义符想成%就明白了。在C#看来@"\-"就是\-这个普通的字符串，只不过在正则表达式分析引擎看来他有了特殊含义。"\\d"或者@"\d"
\d：代表一个数字，等同于[0-9] \\d →\d
\D：代表非数字，等同于[^0-9]
\s：代表换行符、Tab制表符等空白字符 ,(空格、回车、制表符)
\S：代表非空白字符（a0%$@@）
\w：匹配字母或数字或下划线或汉字，即能组成单词的字符,除%&#@!$等字符。[a-zA-Z0-9_汉字]
\W：非\w ，等同于[^\w] %
d：digital；s：space、w：word。大写就是“非”

.NET中的正则表达式
正则表达式在.Net就是用字符串表示，这个字符串格式比较特殊，无论多么特殊，在C#语言看来都是普通的字符串，具体什么含义由Regex类内部进行语法分析。
如何匹配大于10小于20的字符串？（正则表达式是对字符串的操作。）^[1][1-9]$，【11,12,13,14,15,16,17,18,19】观察字符串！自己写正则表达式之前先仔细观察字符串。找规律。
正则表达式（Regular Expression）的主要类：Regex
常用的3种情况：（C#语法）
判断是否匹配：Regex.IsMatch(“字符串”,”正则表达式”);
字符串提取：Regex.Match(“字符串”,“要提取的字符串的正则表达式”);//只能提取一个（提取一次）
字符串提取(循环提取所有)： Regex.Matches()，（可以提取所有匹配的字符串。）
字符串替换：Regex.Replace(“字符串”,”正则”,”替换内容”

实例
Regex.IsMatch方法用于判断一个字符串是否匹配正则表达式。
字符串匹配例子：
Regex.IsMatch("bbbbg","^b.*g$");
Regex.IsMatch("bg", "^b.*g$");
Regex.IsMatch("gege", "^b.*g$");
一定不能忘了^和$，否则也能匹配yesbagit

字符串提取与提取组
正则表达式还可以用来进行字符串提取
Match match = Regex.Match("age=30", @"^(.+)=(.+)$");
if (match.Success)
{
Console.WriteLine(match.Groups[1] .Value);
Console.WriteLine(match.Groups[2] .Value);
}
match的Success属性表示是否匹配成功；正则表达式中用()将要提取的内容括起来，然后就可以通过Match的Groups属性来得到所有的提取元素，注意Groups的序号是从1开始的，0有特殊含义。

贪婪模式与非贪婪模式
贪婪模式演示：（当提取多个超链接的时候）
“1111。11。111。111111。”
贪婪：.+。(默认为贪婪模式，尽可能的多匹配。)
非贪婪：.+?。（尽可能的少匹配，（1个。））
从文本提取出名字：
Match match = Regex.Match("大家好。我是S.H.E。我22岁了。我病了，呜呜。fffff", "我是(.+)。");//没有加^$。
看结果。+、*的匹配默认是贪婪(greedy)的：尽可能多的匹配，直到“再贪婪一点儿”其后的匹配模式就没法匹配为止。
在+、*后添加?就变成非贪婪模式（? 的另外一个用途）：让其后的匹配模式尽早的匹配。修改成"我是(.+?)。"
一般开发的时候不用刻意去修饰为非贪婪模式，只有遇到bug的时候发现是贪婪模式的问题再去解决。如果匹配的结果比自己预想的要多，那么一般都是贪婪模式的原因。

---------------------- ASP.Net+Android+IOS开发、 .Net培训、期待与您交流！ ----------------------