Python菜鸟编程第十四课之正则表达式_python 正则化表达式菜鸟教程-CSDN博客

本文链接：https://blog.csdn.net/qq_40302589/article/details/98373329

Python菜鸟编程第十四课之正则表达式

1.正则表达式

正则表达式，又称规则表达式。正则表达式通常用来检索、替换那些符合某个模式或者规则的文本。

通过正则表达式，判断给定的字符串是否符合正则表达式的过滤逻辑，从而在字符串中获得我们想要的特定的部分。

在Python中使用正则需要导入re包

import re

首先我们来看两个例子来体验一下正则表达式的威力吧：

demo1:

比如，已知一个列表：li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串。

# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
	if i[0:2] == "Ch":
		lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

demo2:

从’ab23fd5g67’中提取数字23，5，67

import re
a='ab23fd5g67'
m=r'[0-9]+'
num=re.findall(m,a)
print(num)

运行结果：
['23', '5', '67']

1.1Python正则表达式的基础

1.11单字符匹配规则

字符\函数	功能
.	匹配任意一家字符（除了\n）
[]	匹配[]中列表的字符
\d	匹配数字0-9
\D	匹配非数字（\d取反）
\w	匹配:A-Z,a-z,0-9,_
\W	\w取反
\s	匹配空白字符，比如空格、tab
\S	\s取反
*	匹配前一个字符出现0次或任意次
+	匹配前一个字符出现1次或任意次，直到出现一次
？	匹配前一个字符出现1次或0次，要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现m次
{m,n}	匹配前一个字符出现m到n次
^	匹配字符串开头
$	匹配字符串的结尾
\b	匹配一个单词的边界
\B	\b取反，匹配非单词边界
\|	匹配左右任意一个表达式
（）	将括号中的字符作为一个分组
\num	引用分组num匹配到的字符串
(?p)	分组起别名
(?p=name)	引用别名为name分组匹配到的字符串

re.match(pattern,string,flags=0)	从字符串的开头开始匹配一个模式，成功返回匹配的对象，否则返回None。 pattern:匹配的正则表达式，string:要匹配的字符串，flags:标志位，用于控制正则表达式的匹配方式，比如是否匹配多行，是否区分大小写
re.group([group1,…])	获得一个或者多个分组截获的字符串，当指定多个参数时就会以元组形式返回。group1可以使用编号，也可以使用别名，编号0代表匹配整个字符串，默认返回group(0)。如果没有截获字符串，返回None；截获了多次的，返回最后一次截获的字符串
re.groups([default=None])	以元组形式返回全部分组截获的字符串。类似调用re.group(1,2…,last)如果没有匹配成功，则返回一个空元组。
re.search(pattern,string,flags=0)	扫描整个字符串，返回第一次成功匹配到的对象。如果匹配失败返回None。 pattern:匹配的正则表达式，string:要匹配的字符串，flags:标志位，用于控制正则表达式的匹配方式，比如是否匹配多行，是否区分大小写
re.findall(pattern,string,flags=0)	获取字符串所有匹配的字符串，并以列表形式返回 pattern:匹配的正则表达式，string:要匹配的字符串，flags:标志位，用于控制正则表达式的匹配方式，比如是否匹配多行，是否区分大小写
re.finditer(pattern,string,flags=0)	获取字符串使用匹配的字符串，以迭代器形式返回 pattern:匹配的正则表达式，string:要匹配的字符串，flags:标志位，用于控制正则表达式的匹配方式，比如是否匹配多行，是否区分大小写

demo:

import re
m = re.match(r'.', 'c')
print(m.group())
m1 = re.match(r'.', 'qwer')
print(m1.group())
m2 = re.match(r'q', 'qwer')
print(m2.group())
m3 = re.match(r's', 'qwer')
print(m3.group())

运行结果：
c
q
q
Traceback (most recent call last):
  File "D:/PyCharm/BClass/PXClass/8月/2019-8-2/daylystudy.py", line 152, in <module>
    print(m3.group())
AttributeError: 'NoneType' object has no attribute 'group'

为什么要用 r’ …‘ 字符串（ raw 字符串）？由于正则式的规则也是由一个字符串定义的，而在正则式中大量使用转义字符 ’/’ ，如果不用 raw 字符串，则在需要写一个 ’/’ 的地方，你必须得写成 ’//’, 那么在要从目标字符串中匹配一个 ’/’ 的时候，你就得写上 4 个 ’/’ 成为 ’’ ！这当然很麻烦，也不直观，所以一般都使用 r’’ 来定义规则字符串。当然，某些情况下，可能不用 raw 字符串比较好。

该段落转自：https://blog.csdn.net/weixin_40907382/article/details/79654372

demo1:

m=re.match('r[0-9]','456city')
print(m.group())

运行结果：
4

demo2:

匹配手机号。匹配规则：总共11位数字，首个数字为1，第二位为：35678。

str1 = r'1[35678][0-9]{9}'
l1 = [18757107360, 13985675632, '18985330550', 'sdasdad', 123456, 89716152, 159570105]
for i in l1:
    m = re.match(str1, str(i))
    if m:
        print(m.group())

运行结果：
18757107360
13985675632
18985330550

demo3:

\b例子

正则表达式：
the 匹配含有the的字符串
\bthe匹配以the开头的字符串
the\b匹配以the结尾的字符串
\bthe\b匹配以the开头和结尾的字符串

demo4:

(xxx)例子

str1='<span><h1>hello</h1></span>'
pat=r'<(.+)><(.+)>(.*)</\2></\1>'
res=re.match(pat,str1)
print(res.group())
print(res.group(1))
print(res.groups())

运行结果：
<span><h1>hello</h1></span>
span
('span', 'h1', 'hello')

demo5:

re.search()、re.findall()、re.finditer()例子

print(re.search('a','Aliyun is a.').group())
#print(re.match('a','Aliyun is a.').group())匹配失败
print(re.search('a','aliyun is a.').group())
print(re.findall('a','Aliyun is a.'))
print(re.findall('a','aliyun is a.'))
for i in re.finditer('a','aliyun is a.'):
    print(i.group())

运行结果：
#re.search()
a
a
#re.findall()
['a']
['a', 'a']
#re.finditer()
a
a

re,match()从字符串开头开始匹配，如果匹配失败，None

re.search()匹配这个字符串，直到找到一个,如果匹配失败，None

Python菜鸟编程第十四课之正则表达式

Python菜鸟编程第十四课之正则表达式

1.正则表达式

1.1Python正则表达式的基础

1.11单字符匹配规则

博主QQ:1031748759，欢迎批评指正！！