正则表达式是一种通用的工具,并不只属于Python语言,基本大部分语言都封装好了这个工具。
引子
正则表达式(Regular Expression)是一种用于做字符串匹配的工具,它能够非常方便地从一段文本中找到/匹配出符合一定要求/规律的目标字符串。
但是我们什么情况下要做字符串匹配呢?而且为什么要用正则表达式做呢,直接用一对一的去对不行吗?举一个简单的例子来回答上面的问题。
比如说,我们有如下一段文本,假设这是你写的一段日记:
我昨天认识了一个女孩A,她给了我她的邮箱girlA@163.com,和她道别后,又遇到另一个女孩B,她也给了我她的邮箱girlB@qq.com,没想到,我之后又遇见了第三个女孩C......
那么,现在,你肯定想做的事情就是给这些遇见的女孩子们群发约会的邀请信息,但是想偷懒的你不想手动一个个地去从上述文本里肉眼查找,然后复制粘贴每个女孩的邮箱(数量少时,你手动做肯定没问题)。于是,你想能不能用一个工具自动提取出所有日记里面的邮箱地址出来。
然后你也想到,首先每个人邮箱的名字都不一样,可能是各种数字与字母的组合,其次邮箱所属的机构名(163, sina, qq, gmail, outlook)也可能不一样,域名(.com, .net, .cn)也可能不一样,那么这可怎么匹配?
但是,聪明的你总结出了一条规律:邮箱不过就是【若干个字符(邮箱名)+@+若干个字符(机构名)+.+若干个字符(域名)】,如果程序能够懂这个模式就能挑选出字符串了!
现在告诉你,正则表达式就可以做到,它就可以按照【若干个字符(邮箱名)+@符号+若干个字符(机构名)+.+若干个字符(域名)】的模式去从文本里把所有符合这个模式的字符串全部找出来。
用python3具体做法如下:
import re
pattern=re.compile(r'[0-9a-zA-Z_]{0,19}@[0-9a-zA-Z]{1,13}\.[com,cn,net]{1,3}')
text='''我昨天认识了一个女孩A,她给了我她的邮箱girlA@163.com,
和她道别后,又遇到另一个女孩B,她也给了我她的邮箱girlB@qq.com,
没想到,我之后又遇见了第三个女孩C......'''
match = pattern.findall(text)
for email in match:
print(email)
# girlA@163.com
# girlB@qq.com
搞定!
目前你看不懂上面的代码没关系,下面我们来一一讲解。
语法
要想用好正则表达式,首先要学习正则表达式的使用语法/使用规则。
我们按照图里面的顺序来分别讲解不同正则表达式不同部分的语法:
字符
- 一般字符
如”a”,”b”,”g”,”4”,”,”等这种比较常用的字符,在正则表达式中都是一对一地匹配和自身相同的字符,没什么特别。
import re
text='abcdefg'
match=re.search('cd',text)
if match:
print(match.group())
# cd 匹配到cd
- .(点)
.(一个点)用于匹配任意除了换行符”\n”以外的字符。
import re
text='ab3defg'
match=re.search('b..',text)
if match:
print(match.group())
# b3d 匹配到b及其后紧跟的两个任意字符
- \(反斜杠)
反斜杠表示转义字符,它将使得紧跟在它后面的字符转变成特殊的含义,或者消除特殊字符本身的特殊含义。(注意,后面的\d 和\w等正则本身包含的元字符中的反斜杠不属于此类转义作用,而是正则中规定好的组合,元字符里的反斜杠就是普通的反斜杠字符。这一点目前看不懂没关系,结合后面的注意事项部分理解)
比如当\与.(点)结合在一起,点就不再是匹配任意单个字符,而是确实地匹配一个点(消除特殊含义)。
- […]
中括号中放上任意多的字符,则这些字符会构成一个字符集合,这个模式将会在遇到集合中的任意一个字符时都认定为匹配。
import re
text='abc345def'
match=re.search('[345]',text)
if matc