正则表达式学习笔记
正则表达式初识
专门用来处理字符串
用途:
字符串匹配(字符匹配)
字符串查找
字符串替换
例如:
IP地址是否正确 邮箱是否正确
从网页中揪出email地址
从网页中揪出链接
正则表达式学习使用软件:RegexBuddy
正则表达式语法:
普通字符:
字母,数字,汉字,下划线,以及没有特殊定义的标点符号,都是“普通字符”,表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。
标准字符集合:
能够与‘多种字符’匹配的表达式
注意区分大小写 大写是相反的意思
字符 含义
字符 | 含义 |
---|---|
\d | 任意一个数字,0~9中的任意一个 |
\w | 任意一个字母或数字或下划线 也就是A~Z , a~z , 0~9 , _ 中任意一个 |
\s | 包括空格,制表符,换行符,等空白字符的其中任意一个 |
. | 小数点可以匹配任意一个字符(除了换行符) 如果要匹配的话“\n”在内的所有,一般用[\s\S] |
自定义字符集合:
[ ] 含义:能够匹配方括号中任意一个字符
字符 | 含义 |
---|---|
[abc@] | 匹配 “a”或“b”或“5”或“@” |
[^abc] | 匹配“a”“b”“c”之外的任意一个字符 |
[f-k] | 匹配“f”~“k”之间的任意一个字母 |
[^A-F0-3] | 匹配“A”-“F”,“0”-“3”之外的任意一个字符 |
量词(Quantifier):修饰匹配次数的特殊符号
字符 | 含义 |
---|---|
{n} | 表达式重复n次 |
{m,n} | 表达式至少重复m次,最多重复n次 |
{m,} | 表达式至少重复m次 |
? | 匹配表达式0次或1次,相当于{0,1} |
+ | 表达式至少出现1次,相当于{1,} |
* | 表达式不出现或出现任意次,相当于{0,} |
匹配次数中的贪婪模式(匹配支付越多越好,默认!)
匹配次数中的非贪婪模式(匹配字符越少越好,修饰匹配次数的特殊符号后在加上一个“?”号)
字符边界:
字符边界去匹配的时候是零宽
—(本组标记匹配的不是符而是位置,符合某种条件的位置)
字符 | 含义 |
---|---|
^ | 与字符串开始的地方匹配 |
$ | 与字符串结束的地方匹配 |
\b | 匹配一个字符边界 |
正则表达式匹配模式:
IGNORECASE 忽略大小写模式
—匹配是忽略大小写
—默认情况下,正则表达式是要区分大小写的
SINGLELINE 单行模式
—整个文本看做一个字符串,只有一个开头,一个结尾。
—使小数点“.” 可以匹配包括换行符(\n) 在内的任意字符
MULTILINE 多行模式
—每行都是一个字符串,都有开头和结尾。
—在指定了MULTILINE之后,如果需要仅匹配字符串开始和结束位,可以使用\A 和\Z
选择符和分组
分支结构 |
左右两边表达式之间“或”的关系,匹配左边或者右边
捕获组 ( )
(1) 在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰
(2) 取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到
(3) 每一对括号会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。
捕获元素编号为0的第一个捕获是由整个正则表达式模式匹配的文本
非捕获组 (?:Expression)
一些表达式中,不得不使用(),但又不需要保存()中子表达式匹配的内容,
这时可以用非捕获组来抵消使用()带来的副作用
反向引用(\nnn)
—每一对()会分配一个编号,使用( )的捕获 根据左括号的顺序从1开始自动编号
—通过反向引用,可以对分组已捕获的字符串进行引用
预搜索(零宽断言)(环视)
—只进行子表达式的匹配,匹配内容不计入最终的匹配结果,是零宽度。
—这个位置应该符合某个条件。判断当前位置的前后字符,是否符合指定的条件但不匹配前后的字符。是对位置的匹配。
—正则表达式匹配过程中,如果子表达式匹配到的是字符内容,而非位置,并被保存到最终的匹配结果中,那么就认为这个子表达式是占有字符的;如果子表达式匹配的仅仅是位置,或者匹配的内容并不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的。占有字符还是零宽度,是针对匹配的内容是否保存到最终的匹配结果中而言的。
字符 | 含义 |
---|---|
(?=exp) | 断言自身出现的位置的后面能匹配表达式exp |
(?<=exp) | 断言自身出现的位置的前面能匹配到表达式exp |
(?!exp) | 断言此位置的后面不能匹配表达exp |
(?<!exp) | 断言此位置的前面不能匹配表达式exp |
练习:
电话号码验证
条件:
- 电话号码有数字和“-”构成
- 电话号码为7-8位
- 如果电话号码包含有区号,那么区号为3位或4位 ,首位是0
- 区号用“—”和其他部分隔开
- 移动电话号码为11位
- 11位移动电话号码的第一位和第二位位“13”,“15”,“18”
答案:(0\d{2,3}-\d{7,9})|(1[35789]\d{9})
电子邮件地址验证
条件:
- 用户名:字母,数字,中划线,下划线组成。
- @
- 网址:字母、数字组成
- 小数点:.
- 组织域名:2-4位字母
- 不区分大小写
答案:[\w-]+@+[a-z0-9A-Z]+(.[a-zA-Z]{2,4}){1,2}