Python3正则表达式(Python3 Regular Expression)

最新推荐文章于 2020-12-10 10:03:00 发布

蓝色枫魂

最新推荐文章于 2020-12-10 10:03:00 发布

阅读量695

点赞数

分类专栏： Python 文章标签：正则表达式 python

本文链接：https://blog.csdn.net/qq_32690999/article/details/78724861

版权

引子
语法
注意事项
- 正则表达式前的r是什么
Python3正则工具

正则表达式是一种通用的工具，并不只属于Python语言，基本大部分语言都封装好了这个工具。

引子

正则表达式（Regular Expression）是一种用于做字符串匹配的工具，它能够非常方便地从一段文本中找到/匹配出符合一定要求/规律的目标字符串。

但是我们什么情况下要做字符串匹配呢？而且为什么要用正则表达式做呢，直接用一对一的去对不行吗？举一个简单的例子来回答上面的问题。

比如说，我们有如下一段文本，假设这是你写的一段日记：

我昨天认识了一个女孩A，她给了我她的邮箱girlA@163.com，和她道别后，又遇到另一个女孩B，她也给了我她的邮箱girlB@qq.com，没想到，我之后又遇见了第三个女孩C......

那么，现在，你肯定想做的事情就是给这些遇见的女孩子们群发约会的邀请信息，但是想偷懒的你不想手动一个个地去从上述文本里肉眼查找，然后复制粘贴每个女孩的邮箱（数量少时，你手动做肯定没问题）。于是，你想能不能用一个工具自动提取出所有日记里面的邮箱地址出来。

然后你也想到，首先每个人邮箱的名字都不一样，可能是各种数字与字母的组合，其次邮箱所属的机构名（163, sina, qq, gmail, outlook）也可能不一样，域名(.com, .net, .cn)也可能不一样，那么这可怎么匹配？

但是，聪明的你总结出了一条规律：邮箱不过就是【若干个字符（邮箱名）+@+若干个字符（机构名）+.+若干个字符（域名）】，如果程序能够懂这个模式就能挑选出字符串了！

现在告诉你，正则表达式就可以做到，它就可以按照【若干个字符（邮箱名）+@符号+若干个字符（机构名）+.+若干个字符（域名）】的模式去从文本里把所有符合这个模式的字符串全部找出来。

用python3具体做法如下：

import re
pattern=re.compile(r'[0-9a-zA-Z_]{0,19}@[0-9a-zA-Z]{1,13}\.[com,cn,net]{1,3}')
text='''我昨天认识了一个女孩A，她给了我她的邮箱girlA@163.com，
和她道别后，又遇到另一个女孩B，她也给了我她的邮箱girlB@qq.com，
没想到，我之后又遇见了第三个女孩C......'''
match = pattern.findall(text)
for email in match:
    print(email)
# girlA@163.com
# girlB@qq.com

搞定！

目前你看不懂上面的代码没关系，下面我们来一一讲解。

语法

要想用好正则表达式，首先要学习正则表达式的使用语法/使用规则。

图来自Python正则表达式指南

我们按照图里面的顺序来分别讲解不同正则表达式不同部分的语法：

字符

一般字符

如”a”,”b”,”g”,”4”,”,”等这种比较常用的字符，在正则表达式中都是一对一地匹配和自身相同的字符，没什么特别。

import re
text='abcdefg'
match=re.search('cd',text)
if match:
  print(match.group())
# cd 匹配到cd

.(点)

.（一个点）用于匹配任意除了换行符”\n”以外的字符。

import re
text='ab3defg'
match=re.search('b..',text)
if match:
  print(match.group())
# b3d 匹配到b及其后紧跟的两个任意字符

\（反斜杠）

反斜杠表示转义字符，它将使得紧跟在它后面的字符转变成特殊的含义，或者消除特殊字符本身的特殊含义。（注意，后面的\d 和\w等正则本身包含的元字符中的反斜杠不属于此类转义作用，而是正则中规定好的组合，元字符里的反斜杠就是普通的反斜杠字符。这一点目前看不懂没关系，结合后面的注意事项部分理解）

比如当\与.（点）结合在一起，点就不再是匹配任意单个字符，而是确实地匹配一个点（消除特殊含义）。

[…]

中括号中放上任意多的字符，则这些字符会构成一个字符集合，这个模式将会在遇到集合中的任意一个字符时都认定为匹配。

import re
text='abc345def'
match=re.search('[345]',text)
if matc

最低0.47元/天解锁文章

蓝色枫魂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python3正则表达式(Python3 Regular Expression)

引子语法字符预定义字符集数量词边界匹配逻辑分组注意事项正则表达式前的r是什么Python3正则工具正则表达式是一种通用的工具，并不只属于Python语言，基本大部分语言都封装好了这个工具。引子正则表达式（Regular Expression）是一种用于做字符串匹配的工具，它能够非常方便地从一段文本中找到/匹配出符合一定要求/规律的目标字符串。但是我们什么情况下要做字符串匹配呢？而且
复制链接

扫一扫