正则表达式格式
‘.’ 默认匹配除\n之外的任意一个字符若指定flag DOTALL,则匹配任意字符包括换行
‘^’ 匹配字符开头若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
‘
′
匹
配
字
符
结
尾
或
e
.
s
e
a
r
c
h
(
"
f
o
o
' 匹配字符结尾或e.search("foo
′匹配字符结尾或e.search("foo",“bfoo\nsdfsf”,flags=re.MULTILINE).group()也可以
‘’ 匹配号前的字符0次或多次re.findall(“ab*”,“cabb3abcbbac”) 结果为[‘abb’, ‘ab’, ‘a’]
‘+’ 匹配前一个字符1次或多次re.findall(“ab+”,“ab+cd+abb+bba”) 结果[‘ab’, ‘abb’]
‘?’ 匹配前一个字符1次或0次
‘{m}’ 匹配前一个字符m次
‘{n,m}’ 匹配前一个字符n到m次re.findall(“ab{1,3}”,“abb abc abbcbbb”) 结果’abb’, ‘ab’, ‘abb’]
‘|’ 匹配|左或|右的字符re.search(“abc|ABC”,“ABCBabcCD”).group() 结果’ABC’
‘(…)’ 分组匹配re.search("(abc){2}a(123|456)c", “abcabca456c”).group() 结果 abcabca456c
‘\A’ 只从字符开头匹配re.search("\Aabc",“alexabc”) 是匹配不到的
‘\Z’ 匹配字符结尾同$
‘\d’ 匹配数字0-9
‘\D’ 匹配非数字
‘\w’ 匹配[A-Za-z0-9]
‘\W’ 匹配非[A-Za-z0-9]
‘\s’ 匹配空白字符、\t、\n、\r , re.search("\s+",“ab\tc1\n3”).group() 结果 ‘\t’
正则表达式常用方法
在做项目的过程中,使用正则表达式来匹配一段文本中的特定种类字符,是比较常用的一种方式,下面是对常用的正则匹配做了一个归纳整理。
1、匹配中文:[\u4e00-\u9fa5]
2、英文字母:[a-zA-Z]
3、数字:[0-9]
4、匹配中文,英文字母和数字及下划线:[\u4e00-\u9fa5_a-zA-Z0-9]+$
同时判断输入长度:
[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10}
5、
(?!) 不能以_开头
(?!.*?) 不能以_结尾
[a-zA-Z0-9_\u4e00-\u9fa5]+ 至少一个汉字、数字、字母、下划线
KaTeX parse error: Got function '\u' with no arguments as subscript at position 53: …不限: ^[a-zA-Z0-9_̲\u4e00-\u9fa5]+…|[\dA-Za-z_]{1,14}
10、匹配双字节字符(包括汉字在内):[^x00-xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
11、匹配空白行的正则表达式:nsr
评注:可以用来删除空白行
12、匹配HTML标记的正则表达式:<(S?)[^>]>.?|<.? />
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力
13、匹配首尾空白字符的正则表达式:^s|s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
14、匹配Email地址的正则表达式:[a-zA-Z0-9][\w.-][a-zA-Z0-9]@[a-zA-Z0-9][\w.-][a-zA-Z0-9].[a-zA-Z][a-zA-Z.][a-zA-Z]$
评注:表单验证时很实用
15、手机号:^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$
16、身份证:(^\d{15}KaTeX parse error: Expected group after '^' at position 4: )|(^̲\d{17}([0-9]|X|…
评注:表单验证时很实用
19、匹配国内电话号码:d{3}-d{8}|d{4}-d{7}
评注:匹配形式如 0511-4405222 或 021-87888822
20、匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始
21、匹配中国邮政编码:[1-9]d{5}(?!d)
评注:中国邮政编码为6位数字
22、匹配身份证:d{15}|d{18}
评注:中国的身份证为15位或18位
23、匹配ip地址:d+.d+.d+.d+
评注:提取ip地址时有用
24、匹配特定数字:
[1-9]d
/
/
匹
配
正
整
数
−
[
1
−
9
]
d
∗
//匹配正整数 ^-[1-9]d*
//匹配正整数−[1−9]d∗ //匹配负整数
^-?[1-9]d*
/
/
匹
配
整
数
[
1
−
9
]
d
∗
∣
0
//匹配整数 ^[1-9]d*|0
//匹配整数[1−9]d∗∣0 //匹配非负整数(正整数 + 0)
^-[1-9]d*|0
/
/
匹
配
非
正
整
数
(
负
整
数
+
0
)
[
1
−
9
]
d
∗
.
d
∗
∣
0.
d
∗
[
1
−
9
]
d
∗
//匹配非正整数(负整数 + 0) ^[1-9]d*.d*|0.d*[1-9]d*
//匹配非正整数(负整数+0)[1−9]d∗.d∗∣0.d∗[1−9]d∗ //匹配正浮点数
^-([1-9]d*.d*|0.d*[1-9]d*)
/
/
匹
配
负
浮
点
数
−
?
(
[
1
−
9
]
d
∗
.
d
∗
∣
0.
d
∗
[
1
−
9
]
d
∗
∣
0
?
.
0
+
∣
0
)
//匹配负浮点数 ^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)
//匹配负浮点数−?([1−9]d∗.d∗∣0.d∗[1−9]d∗∣0?.0+∣0) //匹配浮点数
^1-9]d*.d*|0.d*[1-9]d*|0?.0+|0
/
/
匹
配
非
负
浮
点
数
(
正
浮
点
数
+
0
)
(
−
(
[
1
−
9
]
d
∗
.
d
∗
∣
0.
d
∗
[
1
−
9
]
d
∗
)
)
∣
0
?
.
0
+
∣
0
//匹配非负浮点数(正浮点数 + 0) ^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0
//匹配非负浮点数(正浮点数+0)(−([1−9]d∗.d∗∣0.d∗[1−9]d∗))∣0?.0+∣0 //匹配非正浮点数(负浮点数 + 0)
评注:处理大量数据时有用,具体应用时注意修正
25、匹配特定字符串:
[A-Za-z]+
/
/
匹
配
由
26
个
英
文
字
母
组
成
的
字
符
串
[
A
−
Z
]
+
//匹配由26个英文字母组成的字符串 [A-Z]+
//匹配由26个英文字母组成的字符串[A−Z]+ //匹配由26个英文字母的大写组成的字符串
[a-z]+
/
/
匹
配
由
26
个
英
文
字
母
的
小
写
组
成
的
字
符
串
[
A
−
Z
a
−
z
0
−
9
]
+
//匹配由26个英文字母的小写组成的字符串 [A-Za-z0-9]+
//匹配由26个英文字母的小写组成的字符串[A−Za−z0−9]+ //匹配由数字和26个英文字母组成的字符串
^w+
/
/
匹
配
由
数
字
、
26
个
英
文
字
母
或
者
下
划
线
组
成
的
字
符
串
26
、
在
使
用
R
e
g
u
l
a
r
E
x
p
r
e
s
s
i
o
n
V
a
l
i
d
a
t
o
r
验
证
控
件
时
的
验
证
功
能
及
其
验
证
表
达
式
介
绍
如
下
:
只
能
输
入
数
字
:
“
[
0
−
9
]
∗
//匹配由数字、26个英文字母或者下划线组成的字符串 26、 在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下: 只能输入数字:“^[0-9]*
//匹配由数字、26个英文字母或者下划线组成的字符串26、在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下:只能输入数字:“[0−9]∗”
只能输入n位的数字:“^d{n}
”
只
能
输
入
至
少
n
位
数
字
:
“
d
n
,
” 只能输入至少n位数字:“^d{n,}
”只能输入至少n位数字:“dn,”
只能输入m-n位的数字:“^d{m,n}
”
只
能
输
入
零
和
非
零
开
头
的
数
字
:
“
(
0
∣
[
1
−
9
]
[
0
−
9
]
∗
)
” 只能输入零和非零开头的数字:“^(0|[1-9][0-9]*)
”只能输入零和非零开头的数字:“(0∣[1−9][0−9]∗)”
只能输入有两位小数的正实数:“[0-9]+(.[0-9]{2})?
”
只
能
输
入
有
1
−
3
位
小
数
的
正
实
数
:
“
[
0
−
9
]
+
(
.
[
0
−
9
]
1
,
3
)
?
” 只能输入有1-3位小数的正实数:“^[0-9]+(.[0-9]{1,3})?
”只能输入有1−3位小数的正实数:“[0−9]+(.[0−9]1,3)?”
只能输入非零的正整数:“^+?[1-9][0-9]”
只能输入非零的负整数:“^-[1-9][0-9]”
只能输入长度为3的字符:“^.{3}”
只能输入由26个英文字母组成的字符串:“[A-Za-z]+”
只能输入由26个大写英文字母组成的字符串:“[A-Z]+”
只能输入由26个小写英文字母组成的字符串:“[a-z]+”
只能输入由数字和26个英文字母组成的字符串:“[A-Za-z0-9]+”
只能输入由数字、26个英文字母或者下划线组成的字符串:“^w+”
验证用户密码:“[a-zA-Z]w{5,17}KaTeX parse error: Expected group after '^' at position 46: …、数字和下划线。 验证是否含有^̲%&',;=?"等字符:“[^%&’,;=?
x
22
]
+
”
只
能
输
入
汉
字
:
“
[
u
4
e
00
−
u
9
f
a
5
]
,
0
,
x22]+” 只能输入汉字:“[u4e00-u9fa5],{0,}
x22]+”只能输入汉字:“[u4e00−u9fa5],0,”
验证Email地址:“^w+[-+.]w+)@w+([-.]w+).w+([-.]w+)
”
验
证
I
n
t
e
r
n
e
t
U
R
L
:
“
h
t
t
p
:
/
/
(
[
w
−
]
+
.
)
+
[
w
−
]
+
(
/
[
w
−
.
/
?
” 验证InternetURL:“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?
”验证InternetURL:“http://([w−]+.)+[w−]+(/[w−./?”
验证身份证号(15位或18位数字):“^d{15}|d{}18
”
验
证
一
年
的
12
个
月
:
“
(
0
?
[
1
−
9
]
∣
1
[
0
−
2
]
)
” 验证一年的12个月:“^(0?[1-9]|1[0-2])
”验证一年的12个月:“(0?[1−9]∣1[0−2])”正确格式为:“01”-“09”和“1”“12”
验证一个月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)
”
正
确
格
式
为
:
“
01
”
“
09
”
和
“
1
”
“
31
”
。
匹
配
中
文
字
符
的
正
则
表
达
式
:
[
u
4
e
00
−
u
9
f
a
5
]
匹
配
双
字
节
字
符
(
包
括
汉
字
在
内
)
:
[
x
00
−
x
f
f
]
匹
配
空
行
的
正
则
表
达
式
:
n
[
s
∣
]
∗
r
匹
配
H
T
M
L
标
记
的
正
则
表
达
式
:
/
<
(
.
∗
)
>
.
∗
∣
<
(
.
∗
)
/
>
/
匹
配
首
尾
空
格
的
正
则
表
达
式
:
(
s
∗
)
∣
(
s
∗
” 正确格式为:“01”“09”和“1”“31”。 匹配中文字符的正则表达式: [u4e00-u9fa5] 匹配双字节字符(包括汉字在内):[x00-xff] 匹配空行的正则表达式:n[s| ]*r 匹配HTML标记的正则表达式:/<(.*)>.*|<(.*) />/ 匹配首尾空格的正则表达式:(^s*)|(s*
”正确格式为:“01”“09”和“1”“31”。匹配中文字符的正则表达式:[u4e00−u9fa5]匹配双字节字符(包括汉字在内):[x00−xff]匹配空行的正则表达式:n[s∣]∗r匹配HTML标记的正则表达式:/<(.∗)>.∗∣<(.∗)/>/匹配首尾空格的正则表达式:(s∗)∣(s∗)
匹配Email地址的正则表达式:w+([-+.]w+)@w+([-.]w+).w+([-.]w+)
匹配网址URL的正则表达式:http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?