Python3正则表达式(Python3 Regular Expression)

正则表达式是一种通用的工具,并不只属于Python语言,基本大部分语言都封装好了这个工具。

引子

正则表达式(Regular Expression)是一种用于做字符串匹配的工具,它能够非常方便地从一段文本中找到/匹配出符合一定要求/规律的目标字符串。

但是我们什么情况下要做字符串匹配呢?而且为什么要用正则表达式做呢,直接用一对一的去对不行吗?举一个简单的例子来回答上面的问题。

比如说,我们有如下一段文本,假设这是你写的一段日记:

我昨天认识了一个女孩A,她给了我她的邮箱girlA@163.com,和她道别后,又遇到另一个女孩B,她也给了我她的邮箱girlB@qq.com,没想到,我之后又遇见了第三个女孩C......

那么,现在,你肯定想做的事情就是给这些遇见的女孩子们群发约会的邀请信息,但是想偷懒的你不想手动一个个地去从上述文本里肉眼查找,然后复制粘贴每个女孩的邮箱(数量少时,你手动做肯定没问题)。于是,你想能不能用一个工具自动提取出所有日记里面的邮箱地址出来。

然后你也想到,首先每个人邮箱的名字都不一样,可能是各种数字与字母的组合,其次邮箱所属的机构名(163, sina, qq, gmail, outlook)也可能不一样,域名(.com, .net, .cn)也可能不一样,那么这可怎么匹配?

但是,聪明的你总结出了一条规律:邮箱不过就是【若干个字符(邮箱名)+@+若干个字符(机构名)+.+若干个字符(域名)】,如果程序能够懂这个模式就能挑选出字符串了!

现在告诉你,正则表达式就可以做到,它就可以按照【若干个字符(邮箱名)+@符号+若干个字符(机构名)+.+若干个字符(域名)】的模式去从文本里把所有符合这个模式的字符串全部找出来。

用python3具体做法如下:

import re
pattern=re.compile(r'[0-9a-zA-Z_]{0,19}@[0-9a-zA-Z]{1,13}\.[com,cn,net]{1,3}')
text='''我昨天认识了一个女孩A,她给了我她的邮箱girlA@163.com,
和她道别后,又遇到另一个女孩B,她也给了我她的邮箱girlB@qq.com,
没想到,我之后又遇见了第三个女孩C......'''
match = pattern.findall(text)
for email in match:
    print(email)
# girlA@163.com
# girlB@qq.com

搞定!

目前你看不懂上面的代码没关系,下面我们来一一讲解。

语法

要想用好正则表达式,首先要学习正则表达式的使用语法/使用规则。

图来自Python正则表达式指南

我们按照图里面的顺序来分别讲解不同正则表达式不同部分的语法:

字符

  • 一般字符

如”a”,”b”,”g”,”4”,”,”等这种比较常用的字符,在正则表达式中都是一对一地匹配和自身相同的字符,没什么特别。

import re
text='abcdefg'
match=re.search('cd',text)
if match:
  print(match.group())
# cd 匹配到cd
  • .(点)

.(一个点)用于匹配任意除了换行符”\n”以外的字符。

import re
text='ab3defg'
match=re.search('b..',text)
if match:
  print(match.group())
# b3d 匹配到b及其后紧跟的两个任意字符
  • \(反斜杠)

反斜杠表示转义字符,它将使得紧跟在它后面的字符转变成特殊的含义,或者消除特殊字符本身的特殊含义。(注意,后面的\d 和\w等正则本身包含的元字符中的反斜杠不属于此类转义作用,而是正则中规定好的组合,元字符里的反斜杠就是普通的反斜杠字符。这一点目前看不懂没关系,结合后面的注意事项部分理解)

比如当\与.(点)结合在一起,点就不再是匹配任意单个字符,而是确实地匹配一个点(消除特殊含义)。

  • […]

中括号中放上任意多的字符,则这些字符会构成一个字符集合,这个模式将会在遇到集合中的任意一个字符时都认定为匹配。

import re
text='abc345def'
match=re.search('[345]',text)
if matc
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值