什么是正则表达式
正则表达式是一个很强大的字符串处理工具,几乎任何关于字符串的操作都可以使用正则表达式来完成,是一个特殊的字符序列,用来判断一个字符串与我们所设定的字符序列是否相匹配。实现快速检索文本和一些替换文本的操作。在Python中我们有专门的正则表达式模块re,re 模块使 Python 语言拥有全部的正则表达式功能
符号 | 说明 |
---|---|
. | 匹配任意字符(不包括换行符) |
^ | 匹配开始位置,多行模式下匹配每一行开始 |
$ | 匹配结束位置,多行模式下匹配每一行结束 |
* | 匹配前一个元字符0到多次 |
+ | 匹配前一个元字符1到多次 |
? | 匹配前一个元字符0到1次 |
{m} | 匹配前一个元字符m次 |
{m,n} | 匹配前一个元字符m到n次 |
\ | 转义字符,跟在其后的字符将失去作为特殊元字符的含义,例如\.只能匹配.,不能再匹配任意字符 |
[] | 字符集,一个字符的集合,可匹配其中任意一个字符 |
… | 分组,默认为捕获,即被分组的内容可以被单独取出,默认每个分组有个索引,从 1 开始,按照"("的顺序决定索引值 |
?iLmsux | 分组中可以设置模式,iLmsux之中的每个字符代表一个模式,用法参见 模式 I |
?:… | 分组的不捕获模式,计算索引时会跳过这个分组 |
?P… | 分组的命名模式,取此分组中的内容时可以使用索引也可以使用name |
?P=name | 分组的引用模式,可在同一个正则表达式用引用前面命名过的正则 |
?#… | 注释,不影响正则表达式其它部分,用法参见模式I |
?=… | 顺序肯定环视,表示所在位置右侧能够匹配括号内正则 |
?!.. | 顺序否定环视,表示所在位置右侧不能匹配括号内正则 |
?<=… | 逆序肯定环视,表示所在位置左侧能够匹配括号内正则 |
?<!.. | 逆序否定环视,表示所在位置左侧不能匹配括号内正则 |
\number | 匹配和前面索引为number的分组捕获到的内容一样的字符串 |
\A | 匹配字符串开始位置,忽略多行模式 |
\Z | 匹配字符串结束位置,忽略多行模式 |
\b | 匹配位于单词开始或结束位置的空字符串 |
\B | 匹配不位于单词开始或结束位置的空字符串 |
\d | 匹配一个数字, 相当于 [0-9] |
\D | 匹配非数字,相当于 [^0-9] |
\s | 匹配任意空白字符, 相当于 [ \t\n\r\f\v] |
\S | 匹配非空白字符,相当于 [^ \t\n\r\f\v] |
\w | 匹配数字、字母、下划线中任意一个字符, 相当于 [a-zA-Z0-9_] |
\W | 匹配非数字、字母、下划线中的任意字符,相当于 [^a-zA-Z0-9_] |
下面有一些例题可以用来熟悉操作:
1.请用正则表达式,找出下面字符串中所有c开头的单词,结果是一个列表,列表里面每一个元素是一个单词得出的列表应该是[‘curtain’,’clear’,’case’,’certain’]
s =
”’
And now, the end is near And so I face the final curtain My friend, I’ll make it clear
I’ll state my case, of which I’m certain
”’
import re
s ='"And now, the end is near And so I face the final curtain My friend, I’ll make it clearI’ll state my case, of which I’m certain"'
print(re.findall(r'\b[c][a-z]+',s))
re.findall函数在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表
2.用正则表达式,提取每行中完整的年月日和时间字段应该得出字典: [‘1987-02-09 07:30:00’,’1987-02-10 07:25:00’]
s=se234 1987-02-09 07:30:001987-02-10 07:25:00
import re
s ='"se234 1987-02-09 07:30:00' \
'1987-02-10 07:25:00"'
print(re.findall(r'\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2}',s))
3.用正则表达式筛选出,只包含字母、空格和数字的行,结果是一个列表,每个元素是一行
s=’’’
i love you not because
12sd 34er*% 56
df e4*%$ 5@%!4434
sfi hi q94 729
‘’’
import re
s='''
i love you not because
12sd 34er*% 56
df e4*%$ 5@%!4434
sfi hi q94 729
'''
print(re.findall(r'\n[\w\s]+\n',s))
还有一些常用的匹配验证规则:
验证手机号:
(^(13\d|14[57]|15[^4\D]|17[13678]|18\d)\d{8}|170[^346\D]\d{7})
验证邮箱:
^[a-z0-9]+([._\\-]*[a-z0-9])*@([a-z0-9]+[-a-z0-9]*[a-z0-9]+.){1,63}[a-z0-9]+$
IP:
^(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}$
东西太多了,学完之后后续会补充