正则表达式—慢慢的干货啊
1.正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
2.正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,能更方便的实现字符串的检索、替换、匹配验证。
3.对于爬虫来说,使用正则表达式,从HTML里提取想要的信息就非常方便了。
规则:
正则表达式有特定的语法规则的。正则表达式中既可以使用普通字符,也可以使用特殊字符构成匹配模式。在实际应用中,在使用普通字符时,需要做精确匹配,如果使用特殊字符则是定义匹配模式用于模糊匹配。
[0-9]: 匹配任一数字,0~9
[a-z]: 匹配任一小写字符
[A-Z]:匹配任一大写字符
[0-9A-Za-z]:匹配任一数字和字母
[0-9A-Za-z_]:匹配任一数字、字母和下划线
.(点星):其中.(点)可以匹配任意字符(除换行符),(星)代表匹配前面的字符无限次,所以它们组合在一起就可以匹配任意字符了。
.*?(点星问):尽可能少的匹配任意字符。
#贪婪与非贪婪匹配
content = ‘Hello 1234567 World_This is a Regex Demo’
re_pat1 = re.compile(r’^he.*(\d+).*DemoKaTeX parse error: Undefined control sequence: \d at position 40: …mpile(r'^he.*?(\̲d̲+).*Demo’, re.I)
print(re_pat1.findall(content)) #[‘7’], 在贪婪匹配下,.*会匹配尽可能多的字符。
print(re_pat2.findall(content)) #[‘1234567’],非贪婪匹配就是尽可能匹配少的字符
Python中的 re 模块提供了正则表达式,该模块提供文本匹配查找、文本替换、文本分隔等功能。
如果使用re模块,首先需要导入re模块。re模块中提供了多个函数,下面我们分别来进行介绍。
re模块常用函数:
compile()
match()
search()
findall()
finditer()
split()
sub()
subn()
1… compile()将一个字符串形式的正则表达式编译成一个正则表达式Pattern对象。以便于重复使用正则表达式,减少系统开销。
compile函数语法格式如下:
compile(pattern,flags=0)
pattern是一个正则表达式,flags指定匹配模式,忽略大小写,多行模式等。
flags具体参数如下表所示:
import re
content = 'I like Python , I am in Python class'
comRegex = re.compile(r'Pytho\w', re.I) # 不区分大小写
print(type(comRegex)) #pattern类型
alist = comRegex.findall(content)
print(alist) #['Python', 'Python']
2.match()
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
match函数语法格式如下:
re.match(pattern, string, flags=0)
pattern表示匹配的正则表达式,string表示要匹配的字符串。
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等。
print(re.match('python',"Python,I like!",re.I)) #<re.Match object; span=(0, 6), match='Python'>
print(re.match('Math',"Python,I like!")) #None
3. search()与match 函数只匹配文本开始字符串不同,search函数可以匹配文本任意位置的字符串。只要找到第一个匹配则返回一个匹配对象,否则返回为None。
search函数语法格式如下:
re. search(pattern, string, flags=0)
示例:
print(re.search(‘python’,“Python,I love python!”,re.I)) #<re.Match object; span=(0, 6), match=‘Python’>
print(re.search(‘Math’,“Python,I love python!”,re.I)) #None
注意:
match和search一旦匹配成功,就是一个match object对象,该对象包含span和match两个部分,其中span表示匹配对象在目标文本中出现的位置这里为(0,6),match表示匹配对象本身内容,这里为’Python’。
注:re模块中提供了一些与Match对象相关的方法,用于获取匹配结果中的各项数据,如下表所示。
b=re.search("h(\w+)(.p\w+)","hello python")
print(b) #<re.Match object; span=(0, 12), match='hello python'>
print(b.group(0)) #hello python,返回整体
print(b.group(1)) #ello,列出第一个括号匹配部分
print(b.group(2)) # python,列出第二个括号匹配部分
print(b.groups()) #('ello', ' python'),返回一个元组,元组中的元就是正则表达式中定义的组
print(b.span()) #(0, 12)
print(b.start()) #0
print(b.end()) #12
4.findall()match函数只能匹配文本开始,search函数也只能返回第一个匹配项,如果对文本需要进行全文匹配,则需要使用findall和finditer函数。re模块中的findall函数用于在字符串中找到所有与正则表达式匹配的子串。
findall函数语法格式如下:
re.findall(pattern,string,flags=0)
print(re.findall(r'Python', 'Python! I love python.', re.I)) #['Python', 'python']
5. finditer() re模块中的finditer函数与findall函数功能完全相同,区别在于findall函数是以列表的形式返回,而finditer是以迭代器的形式返回结果。
语法格式如下:
re.finditer(pattern,string,flags=0)
print(re.finditer(r'Python', 'Python! I love python.', re.I))
6. split(),split函数会将字符串按照正则表达式匹配的子串进行分隔。
语法格式如下:
re.split(pattern,string,maxsplit=0,flags=0)
pattern,string和flags参数的含义与match参数含义相同。
maxsplit是最大分割次数,默认为0,表示不限制分割次数。
print(re.split(r'\d+','one1two2three3four4five5')) #['one', 'two', 'three', 'four', 'five', '']
7.sub(), sub函数用于替换字符串中与正则表达式匹配的子串。
语法格式如下:
re.sub(pattern,repl,string,count=0,flags=0)
其中pattern是正则表达式,repl是要替换成的字符串,string是要被替换的字符串,
count是最大替换次数,默认为0,表示不限制替换次数。
print(re.sub(r'\d+', '_', 'one1two2three3four4five5')) #one_two_three_four_five_
8. subn()。subn与sub函数功能完全相同,只是subn函数会以元组的形式返回替换后的新字符串和替换的次数。
语法格式如下:
re.subn(pattern,repl,string,count=0,flags=0)
参数含义与sub函数相同
print(re.subn(r'\d+', '_', 'one1two2three3four4five5')) #('one_two_three_four_five_', 5)
print(re.subn(r'<[^<]*>', '', '<html><body>你好啊,朋友</body></html>')) #('你好啊,朋友', 4)
9.使用compile函数编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一些效率。)
用编译后的正则表达式去匹配对象。
示例:
re_phone = re.compile(r’\d{3}-\d{8}|\d{4}-{7,8}’, re.I)
content = ‘Hello, my phone number is 0371-86532100 .’
print(re_phone.findall(content))