Python之正则表达式

正则表达式—慢慢的干货啊

1.正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
2.正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,能更方便的实现字符串的检索、替换、匹配验证。
3.对于爬虫来说,使用正则表达式,从HTML里提取想要的信息就非常方便了。

规则:

正则表达式有特定的语法规则的。正则表达式中既可以使用普通字符,也可以使用特殊字符构成匹配模式。在实际应用中,在使用普通字符时,需要做精确匹配,如果使用特殊字符则是定义匹配模式用于模糊匹配。
[0-9]: 匹配任一数字,0~9
[a-z]: 匹配任一小写字符
[A-Z]:匹配任一大写字符
[0-9A-Za-z]:匹配任一数字和字母
[0-9A-Za-z_]:匹配任一数字、字母和下划线
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

.(点星):其中.(点)可以匹配任意字符(除换行符),(星)代表匹配前面的字符无限次,所以它们组合在一起就可以匹配任意字符了。

.*?(点星问):尽可能少的匹配任意字符。

#贪婪与非贪婪匹配
content = ‘Hello 1234567 World_This is a Regex Demo’
re_pat1 = re.compile(r’^he.*(\d+).*DemoKaTeX parse error: Undefined control sequence: \d at position 40: …mpile(r'^he.*?(\̲d̲+).*Demo’, re.I)
print(re_pat1.findall(content)) #[‘7’], 在贪婪匹配下,.*会匹配尽可能多的字符。
print(re_pat2.findall(content)) #[‘1234567’],非贪婪匹配就是尽可能匹配少的字符

Python中的 re 模块提供了正则表达式,该模块提供文本匹配查找、文本替换、文本分隔等功能。

如果使用re模块,首先需要导入re模块。re模块中提供了多个函数,下面我们分别来进行介绍。
re模块常用函数:
compile()
match()
search()
findall()
finditer()
split()
sub()
subn()

1… compile()将一个字符串形式的正则表达式编译成一个正则表达式Pattern对象。以便于重复使用正则表达式,减少系统开销。

compile函数语法格式如下:
compile(pattern,flags=0)
pattern是一个正则表达式,flags指定匹配模式,忽略大小写,多行模式等。

flags具体参数如下表所示:

在这里插入图片描述

import re
content = 'I like Python , I am in Python class'
comRegex = re.compile(r'Pytho\w', re.I) # 不区分大小写
print(type(comRegex))     #pattern类型
alist = comRegex.findall(content)
print(alist)           #['Python', 'Python']

2.match()

 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。

match函数语法格式如下:
re.match(pattern, string, flags=0)
pattern表示匹配的正则表达式,string表示要匹配的字符串。
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等。

print(re.match('python',"Python,I like!",re.I))    #<re.Match object; span=(0, 6), match='Python'>
print(re.match('Math',"Python,I like!"))     #None

3. search()与match 函数只匹配文本开始字符串不同,search函数可以匹配文本任意位置的字符串。只要找到第一个匹配则返回一个匹配对象,否则返回为None。

search函数语法格式如下:
re. search(pattern, string, flags=0)
示例:
print(re.search(‘python’,“Python,I love python!”,re.I)) #<re.Match object; span=(0, 6), match=‘Python’>
print(re.search(‘Math’,“Python,I love python!”,re.I)) #None
注意:
match和search一旦匹配成功,就是一个match object对象,该对象包含span和match两个部分,其中span表示匹配对象在目标文本中出现的位置这里为(0,6),match表示匹配对象本身内容,这里为’Python’。

注:re模块中提供了一些与Match对象相关的方法,用于获取匹配结果中的各项数据,如下表所示。

在这里插入图片描述

b=re.search("h(\w+)(.p\w+)","hello python")
print(b)             #<re.Match object; span=(0, 12), match='hello python'>
print(b.group(0))   #hello python,返回整体
print(b.group(1))   #ello,列出第一个括号匹配部分
print(b.group(2))   # python,列出第二个括号匹配部分
print(b.groups())   #('ello', ' python'),返回一个元组,元组中的元就是正则表达式中定义的组
print(b.span())     #(0, 12)
print(b.start())    #0
print(b.end())      #12

4.findall()match函数只能匹配文本开始,search函数也只能返回第一个匹配项,如果对文本需要进行全文匹配,则需要使用findall和finditer函数。re模块中的findall函数用于在字符串中找到所有与正则表达式匹配的子串。

findall函数语法格式如下:
re.findall(pattern,string,flags=0)

print(re.findall(r'Python', 'Python! I love python.', re.I))   #['Python', 'python']

5. finditer() re模块中的finditer函数与findall函数功能完全相同,区别在于findall函数是以列表的形式返回,而finditer是以迭代器的形式返回结果。

语法格式如下:
re.finditer(pattern,string,flags=0)

print(re.finditer(r'Python', 'Python! I love python.', re.I))   

6. split(),split函数会将字符串按照正则表达式匹配的子串进行分隔。

语法格式如下:
re.split(pattern,string,maxsplit=0,flags=0)
pattern,string和flags参数的含义与match参数含义相同。
maxsplit是最大分割次数,默认为0,表示不限制分割次数。

print(re.split(r'\d+','one1two2three3four4five5'))   #['one', 'two', 'three', 'four', 'five', '']

7.sub(), sub函数用于替换字符串中与正则表达式匹配的子串。

语法格式如下:
re.sub(pattern,repl,string,count=0,flags=0)
其中pattern是正则表达式,repl是要替换成的字符串,string是要被替换的字符串,
count是最大替换次数,默认为0,表示不限制替换次数。

print(re.sub(r'\d+', '_', 'one1two2three3four4five5'))  #one_two_three_four_five_

8. subn()。subn与sub函数功能完全相同,只是subn函数会以元组的形式返回替换后的新字符串和替换的次数。

语法格式如下:
re.subn(pattern,repl,string,count=0,flags=0)
参数含义与sub函数相同

print(re.subn(r'\d+', '_', 'one1two2three3four4five5'))   #('one_two_three_four_five_', 5)
print(re.subn(r'<[^<]*>', '', '<html><body>你好啊,朋友</body></html>'))   #('你好啊,朋友', 4)

9.使用compile函数编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一些效率。)

用编译后的正则表达式去匹配对象。
示例:
re_phone = re.compile(r’\d{3}-\d{8}|\d{4}-{7,8}’, re.I)
content = ‘Hello, my phone number is 0371-86532100 .’
print(re_phone.findall(content))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值