1、正则表达式入门
(1)正则表达式是用来进行文本处理的技术,是语言无关的,在几乎所有语言中都有实现。javascript中还会用到。【正则表达式是对文本、对字符串操作的。】
(2)一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
(3)就像通配符“*.jpg”、“%ab%”,它是对字符串进行匹配的特殊字符串
(4)正则表达式是非常复杂的,不要希望一次都掌握,理解正则表达式能做什么(字符串的匹配、字符串的提取、字符串的替换),掌握常用的正则表达式用法,以后用到再查就行。
(5)采集器、敏感词过滤、URLRewite、Validator也会涉及到正则表达式。
(6)正则表达式是对字符串操作的。
2、元字符1
(1)要想学会正则表达式,理解元字符是一个必须攻克的难关。不用刻意记
(2).:匹配除\n之外的任何单个字符。例如正则表达式“b.g”能匹配如下字符串:“big”、“bug”、“b g”,但是不匹配“buug”,“b..g”可以匹配“buug”。
(3)[ ] :匹配括号中的任何一个字符(范围,字符集合)。例如正则表达式“b[aui]g”匹配bug、big和bag,但是不匹配beg、baug。可以在括号中使用连字符“-”来指定字符的区间来简化表示,例如正则表达式[0-9]可以匹配任何数字字符,这样正则表达式“a[0-9]c”等价于“a[0123456789]c”就可以匹配“a0c”、“a1c”、“a2c”等字符串;还可以制定多个区间,例如“[A-Za-z]”可以匹配任何大小写字母,“[A-Za-z0-9]”可以匹配任何的大小写字母或者数字。思考:x[这里必须是元音]y,如何写正则?【当.出现在[]中,则表示普通.,不作为元字符。】
(4)| :将两个匹配条件进行逻辑“或”运算。‘z|food’ 能匹配 “z” 或 “food”。‘(z|f)ood’ 则匹配 “zood” 或 “food”。 //注意^$问题。
(5)( ) :将 () 之间括起来的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域,这个元字符在字符串提取的时候非常有用。把一些字符表示为一个整体。改变优先级、定义提取组两个作用。
3、元字符2(限定符)
(1):匹配0至多个在它之前的子表达式,和通配符没关系。等价于{0,}。例如正则表达式“zo*”(等同于z(o))能匹配 “z” 、“zo”以及 “zoo”;因此“.”意味着能够匹配任意字符串。”z(b|c)“→zb、zbc、zcb、zccc、zbbbccc。”z(ab)“能匹配z、zab、zabab(用括号改变优先级)。
(2)+ :匹配前面的子表达式一次或多次,和*对比(0到多次)。等价于{1,}例如正则表达式9+匹配9、99、999等。 “zo+”能匹配 “zo”以及 “zoo” ,不能匹配”z”。
(3)? :匹配前面的子表达式零次或一次。等价于:{0,1}例如,“do(es)?” 可以匹配 “do” 或 “does” 。【colou?r、favou?r】一般用来匹配“可选部分”。(终止贪婪模式)
(4){n} :匹配确定的 n 次。“zo{2}”→zoo。例如,“e{2}” 不能匹配“bed”中的“e”,但是能匹配“seed”中的两个“e”。 //seeeed,不可以。
(5){n,} :至少匹配n次。例如,“e{2,}”不能匹配“bed”中的“e”,但能匹配 “seeeeeeeed”中的所有“e”。
(6){n,m} :最少匹配 n 次且最多匹配 m 次。“e{1,3}”将匹配“seeeeeeeed”中的前三个“e”。 {2,5}//bed,seed,seeed;beeeeed错误。
(7)限定符:限定前面的正则表达式出现的次数。
4、元字符3
(1)^(shift+6) :匹配一行的开始。例如正则表达式“^regex”能够匹配字符串“regex我会用”的开始,但是不能匹配“我会用regex”。
(2)^另外一种意思:非!([^0-9])
(3)
:匹配行结束符。例如正则表达式“浮云
” 能够匹配字符串“一切都是浮云”的末尾,但是不能匹配字符串“浮云呀”
(4)^abc,匹配一个正则表达式的开始
abcjflkdsjfkdsjf
(5)888,匹配一个正则表达式的结束。
积分多少快乐解放路口的手机费888
5、简写表达式
(1)注意这些简写表达式是不考虑转义符的,这里的\就表示字符\,而不是C#字符串级别的\,在C#代码中需要使用@或者\双重转义。区分C#级别的转移和正则表达式级别的转移,恰好C#的转义符和正则表达式的转义符都是\而已。正则表达式的转义是在C#之后的(层层盘剥)。把C#的转义符想成%就明白了。在C#看来@”-“就是-这个普通的字符串,只不过在正则表达式分析引擎看来他有了特殊含义。”\d”或者@”\d”
\d:代表一个数字,等同于[0-9] \d →\d
\D:代表非数字,等同于[^0-9]
\s:代表换行符、Tab制表符等空白字符 ,(空格、回车、制表符)
\S:代表非空白字符(a0%@@)
\w:匹配字母或数字或下划线或汉字,即能组成单词的字符,除%&#@!等字符。[a-zA-Z0-9_汉字] (unicode字符)
\W:非\w ,等同于[^\w] %
\b:单词的边界。Hello ni hao,are you kidding? D-Day (表示一个位置,一边是单词\w,一边不是单词。\W)
(2)d:digital;s:space、w:word。大写就是“非”
(3)在C#中当在字符串前使用@符号时,字符串中可以用两个双引号表示一个双引号,例如:Console.WriteLine(@”aaaa”“fdsafdsaf”);
(4)问:如何匹配任意的单个字符?[\s\S]
6、正则表达式转义符
(1)正则表达式同样支持\转义符
对于元字符,限定符等,如果要匹配字符本身都需要转义:
*、+、.、[、-、{2,3}、\d…
(2)忽略所有的元字符,类似于C#中的@符号:
string s=Regex.Escape(@”\d{5,7}”);
7、.Net中的正则表达式
(1)正则表达式在.Net就是用字符串表示,这个字符串格式比较特殊,无论多么特殊,在C#语言看来都是普通的字符串,具体什么含义由Regex类内部进行语法分析。
正则表达式(Regular Expression)的主要类:Regex
(2)常用的3种情况:(C#语法)
判断是否匹配:Regex.IsMatch(“字符串”,”正则表达式”);
字符串提取:Regex.Match(“字符串”,“要提取的字符串的正则表达式”);//只能提取一个(提取一次)
字符串提取(循环提取所有): Regex.Matches(),(可以提取所有匹配的字符串。)
字符串替换:Regex.Replace(“字符串”,”正则”,”替换内容”);
Regex.Split();
(3)Regex.IsMatch方法用于判断一个字符串是否匹配正则表达式。
(4)字符串匹配案例
练习1:判断是否是合法的邮政编码(6位数字)
Regex.IsMatch(“100830”,”^[0-9]{6}”)
Regex.IsMatch(“119”, @”^\d{6}
”);解释:由元字符定义得知“[0−9]”表示0到9的任意字符,“6”表示前面的字符匹配6次,因此“[0−9]6”中的6表示对数字匹配6次(000000123)。简写表达式得知“[0−9]”可以被“\d”代替,所以第二种写法“\d6”也是正确的。判断是否为连续的5个英文字母。 [ a−zA−Z]5
123abcde987
//(abcde)|(bcdef)|
(5)字符串匹配案例2
判断一个字符串是不是身份证号码。
1.长度为15位或者18位的字符串,首位不能是0。
2.如果是15位,则全部是数字。
3.如果是18位,则前17位都是数字,末位可能是数字也可能是X。
写法一:^[1-9][0-9]{14}([0-9]{2}[0-9Xx])?
写法二: ( [1−9][0−9]14|[1−9][0−9]16[0−9X])
(6)字符串匹配案例3
判断字符串是否为正确的国内电话号码,不考虑分机。
010-8888888或010-88888880或010xxxxxxx
0335-8888888或0335-88888888(区号-电话号)03358888888
10086、10010、95595、95599、95588(5位)
13888888888(11位都是数字)
Regex.IsMatch(phoneNumber, @“^((\d{3,4}-?\d{7,8})|(\d{5})|(\d{11}))
”);或者Regex.IsMatch(phoneNumber,@“ ( (\d3,4\-?\d7,8)|(\d5))
”);
按照要求一个一个写,都用|连起来。注意:由于区号有时为010-xxxxxxx有时为010xxxxxxx,-可有可无,所以需要?,由于-表示一个区间,所以这里要转义-。最后不要忘记在所有|的最外层加一对()
(7)字符串匹配案例4
判断一个字符串是否是合法的Email地址。一个Email地址的特征就是以一个字符序列开始,后边跟着“@”符号,后边又是一个字符序列,后边跟着符号“.”,最后是字符序列
Regex.IsMatch(“email12@mail.com”, @“^\w+@\w+.\w+$”);可以使用汉字的。
[]括号中的任意字符,\w字母、数字、下划线,+一到多个。由于.在正则表达式中有特殊的含义,因此对于真正想表达“.”则需要转移“.”。
8、字符串提取与提取组(一般不加^
)(1)热身:提取字符串中的所有数字。“大家好呀,hello,2010年10月10日是个好日子。恩,9494.吼吼!886.”思路:使用\d+而不是\d,\d只能提取单个的数字字符。提取字符串中的Email。如何提取所有的Email地址?Matches(),返回值为MatchCollection,可以通过索引器访问到Match对象。提取组:提取每个Email的用户名与域名。用()提取组。患者:“大夫,我咳嗽得很重。”大夫:“你多大年记?”患者:“七十五岁。”大夫:“二十岁咳嗽吗”患者:“不咳嗽。”大夫:“四十岁时咳嗽吗?”患者:“也不咳嗽。”大夫:“那现在不咳嗽,还要等到什么时咳嗽?”.统计“咳嗽”出现的次数,以及每次出现的索引位置。(2)正则表达式还可以用来进行字符串提取Matchmatch=Regex.Match(“age=30”,@” ( .+)=(.+)
”);//此处即便没有找到匹配也不会返回null,所以建议还是通过match.success来判断是否匹配成功。
if (match.Success)
{
Console.WriteLine(match.Groups[1] .Value);
Console.WriteLine(match.Groups[2] .Value);
}
match的Success属性表示是否匹配成功;正则表达式中用()将要提取的内容括起来,然后就可以通过Match的Groups属性来得到所有的提取元素,注意Groups的序号是从1开始的,0有特殊含义。
9、贪婪模式与非贪婪模式
(1)贪婪模式演示:(当提取多个超链接的时候)
“1111。11。111。111111。”
贪婪:.+。(默认为贪婪模式,尽可能的多匹配。)
非贪婪:.+?。(尽可能的少匹配,(1个。))
(2)从文本提取出名字:
Match match = Regex.Match(“大家好。我是S.H.E。我22岁了。我病了,呜呜。fffff”, “我是(.+)。”);//没有加^$。
看结果。+、*的匹配默认是贪婪(greedy)的:尽可能多的匹配,直到“再贪婪一点儿”其后的匹配模式就没法匹配为止。
(3)在+、*后添加?就变成非贪婪模式(? 的另外一个用途):让其后的匹配模式尽早的匹配。修改成”我是(.+?)。”
一般开发的时候不用刻意去修饰为非贪婪模式,只有遇到bug的时候发现是贪婪模式的问题再去解决。如果匹配的结果比自己预想的要多,那么一般都是贪婪模式的原因。
(4)回溯(su)(backtraking)
10、匹配组
正则表达式可以从一段文本中将所有符合匹配的内容都输出出来。Match获得的是匹配的第一个。Regex.Matches方法可以获得所有的匹配项。注意区别:匹配和group的区别
案例:从一个页面提取所有Email地址,用WebClient,自己动手写Email群发器。
练习:从网站抓取所有的图片地址,下载到硬盘:MatchCollection matches = Regex.Matches(content, “border=0\s*src=\”(.?)\”>”);//<[iI]mg.?src=(.+)?.*?/>【】
练习:抓取所有超链接,特征:href=”地址“
//MatchCollection matches = Regex.Matches(text, “