Python之正则表达式

最新推荐文章于 2021-07-31 22:33:23 发布

早安肚皮酱

最新推荐文章于 2021-07-31 22:33:23 发布

阅读量394

点赞数 2

分类专栏： python学习文章标签： python 正则表达式字符串

本文链接：https://blog.csdn.net/qq_44180571/article/details/113809859

版权

python学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

正则表达式—慢慢的干货啊

1.正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。
2.正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，能更方便的实现字符串的检索、替换、匹配验证。
3.对于爬虫来说，使用正则表达式，从HTML里提取想要的信息就非常方便了。

规则:

正则表达式有特定的语法规则的。正则表达式中既可以使用普通字符，也可以使用特殊字符构成匹配模式。在实际应用中，在使用普通字符时，需要做精确匹配，如果使用特殊字符则是定义匹配模式用于模糊匹配。
[0-9]: 匹配任一数字，0~9
[a-z]: 匹配任一小写字符
[A-Z]：匹配任一大写字符
[0-9A-Za-z]：匹配任一数字和字母
[0-9A-Za-z_]：匹配任一数字、字母和下划线
在这里插入图片描述

.（点星）：其中.（点）可以匹配任意字符（除换行符），（星）代表匹配前面的字符无限次，所以它们组合在一起就可以匹配任意字符了。

.*?（点星问）：尽可能少的匹配任意字符。

#贪婪与非贪婪匹配
content = ‘Hello 1234567 World_This is a Regex Demo’
re_pat1 = re.compile(r’^he.*(\d+).*Demo $KaTeX parse error: Undefined control sequence: \d at position 40: …mpile(r'^he.*?(\̲d̲+).*Demo$ ’, re.I)
print(re_pat1.findall(content)) #[‘7’]，在贪婪匹配下，.*会匹配尽可能多的字符。
print(re_pat2.findall(content)) #[‘1234567’]，非贪婪匹配就是尽可能匹配少的字符

Python中的 re 模块提供了正则表达式，该模块提供文本匹配查找、文本替换、文本分隔等功能。

如果使用re模块，首先需要导入re模块。re模块中提供了多个函数，下面我们分别来进行介绍。
re模块常用函数：
compile()
match()
search()
findall()
finditer()
split()
sub()
subn()

1… compile()将一个字符串形式的正则表达式编译成一个正则表达式Pattern对象。以便于重复使用正则表达式，减少系统开销。

compile函数语法格式如下：
compile(pattern,flags=0)
pattern是一个正则表达式，flags指定匹配模式，忽略大小写，多行模式等。

flags具体参数如下表所示：

在这里插入图片描述

import re
content = 'I like Python , I am in Python class'
comRegex = re.compile(r'Pytho\w', re.I) # 不区分大小写
print(type(comRegex))     #pattern类型
alist = comRegex.findall(content)
print(alist)           #['Python', 'Python']

2.match()

 re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

match函数语法格式如下：
re.match(pattern, string, flags=0)
pattern表示匹配的正则表达式，string表示要匹配的字符串。
flags标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等。

print(re.match('python',"Python,I like!",re.I))    #<re.Match object; span=(0, 6), match='Python'>
print(re.match('Math',"Python,I like!"))     #None

3. search()与match 函数只匹配文本开始字符串不同，search函数可以匹配文本任意位置的字符串。只要找到第一个匹配则返回一个匹配对象，否则返回为None。

search函数语法格式如下：
re. search(pattern, string, flags=0)
示例：
print(re.search(‘python’,“Python,I love python!”,re.I)) #<re.Match object; span=(0, 6), match=‘Python’>
print(re.search(‘Math’,“Python,I love python!”,re.I)) #None
注意：
match和search一旦匹配成功，就是一个match object对象，该对象包含span和match两个部分，其中span表示匹配对象在目标文本中出现的位置这里为（0，6），match表示匹配对象本身内容，这里为’Python’。

注：re模块中提供了一些与Match对象相关的方法，用于获取匹配结果中的各项数据，如下表所示。

在这里插入图片描述

b=re.search("h(\w+)(.p\w+)","hello python")
print(b)             #<re.Match object; span=(0, 12), match='hello python'>
print(b.group(0))   #hello python,返回整体
print(b.group(1))   #ello，列出第一个括号匹配部分
print(b.group(2))   # python，列出第二个括号匹配部分
print(b.groups())   #('ello', ' python')，返回一个元组，元组中的元就是正则表达式中定义的组
print(b.span())     #(0, 12)
print(b.start())    #0
print(b.end())      #12

4.findall()match函数只能匹配文本开始，search函数也只能返回第一个匹配项，如果对文本需要进行全文匹配，则需要使用findall和finditer函数。re模块中的findall函数用于在字符串中找到所有与正则表达式匹配的子串。

findall函数语法格式如下：
re.findall(pattern,string,flags=0)

print(re.findall(r'Python', 'Python! I love python.', re.I))   #['Python', 'python']

5. finditer() re模块中的finditer函数与findall函数功能完全相同，区别在于findall函数是以列表的形式返回，而finditer是以迭代器的形式返回结果。

语法格式如下：
re.finditer(pattern,string,flags=0)

print(re.finditer(r'Python', 'Python! I love python.', re.I))

6. split()，split函数会将字符串按照正则表达式匹配的子串进行分隔。

语法格式如下：
re.split(pattern,string,maxsplit=0,flags=0)
pattern,string和flags参数的含义与match参数含义相同。
maxsplit是最大分割次数，默认为0，表示不限制分割次数。

print(re.split(r'\d+','one1two2three3four4five5'))   #['one', 'two', 'three', 'four', 'five', '']

7.sub()， sub函数用于替换字符串中与正则表达式匹配的子串。

语法格式如下：
re.sub(pattern,repl,string,count=0,flags=0)
其中pattern是正则表达式，repl是要替换成的字符串，string是要被替换的字符串，
count是最大替换次数，默认为0，表示不限制替换次数。

print(re.sub(r'\d+', '_', 'one1two2three3four4five5'))  #one_two_three_four_five_

8. subn()。subn与sub函数功能完全相同，只是subn函数会以元组的形式返回替换后的新字符串和替换的次数。

语法格式如下：
re.subn(pattern,repl,string,count=0,flags=0)
参数含义与sub函数相同

print(re.subn(r'\d+', '_', 'one1two2three3four4five5'))   #('one_two_three_four_five_', 5)
print(re.subn(r'<[^<]*>', '', '<html><body>你好啊，朋友</body></html>'))   #('你好啊，朋友', 4)

9.使用compile函数编译正则表达式模式，返回一个对象的模式。（可以把那些常用的正则表达式编译成正则表达式对象，这样可以提高一些效率。）

用编译后的正则表达式去匹配对象。
示例：
re_phone = re.compile(r’\d{3}-\d{8}|\d{4}-{7,8}’, re.I)
content = ‘Hello, my phone number is 0371-86532100 .’
print(re_phone.findall(content))