Python之正则表达式

最新推荐文章于 2023-02-23 23:45:47 发布

風月长情

最新推荐文章于 2023-02-23 23:45:47 发布

阅读量281

点赞数

分类专栏： # Python基础文章标签： Python 正则表达式 python正则表达式正则 regular

学习之路长且漫，长情与君总会见！

本文链接：https://blog.csdn.net/Aaron_Miller/article/details/80248681

版权

Python基础专栏收录该内容

14 篇文章 0 订阅

订阅专栏

一、介绍

1.1 含义

正则表达式（regular expression），用一种特殊的"规则字符串"来表达对字符串的一种过滤逻辑（对字符串检索、替换、匹配验证的表达式），对于爬虫来说就是从HTML中提取数据信息。

1.2 在线正则

https://tool.oschina.net/regex

二、常用匹配规则（元字符）

正则表达式中具有一些特殊含义的字符，比如：重复N次前面的字符

模式	描述
\d	匹配一个数字字符（[0-9]）
\D	匹配一个非数字字符（[^0-9]）
\w	匹配数字、字母及下划线（[[a-zA-Z0-9]]）
\W	匹配非字母、数字及下划线（[^a-zA-Z0-9]）（可匹配特殊符号 @#￥）
\s	匹配任何空白字符，包括空格，制表符，换页符（[\f\n\t\v]）
\S	匹配任何非空白字符（[^\f\n\t\v]）
\A	匹配字符串开头
\z	匹配字符串结尾，如果存在换行，同时还会匹配换行符
\Z	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配到字符串开始的位置
$	匹配到字符串结束的位置
[…]	用来表示一组字符，单独列出，比如[abc]，匹配a,b或c
.	匹配除了换行符以外的任意单个字符
*	匹配0个或多个表达式，匹配前面字符无限次
?	匹配0次，1次｛0, 1｝，非贪婪模式
+	至少匹配1次或多次{1, }
{n}	精确匹配n个前面的表达式
{n, }	前面的数字至少出现n次
{n, m}	匹配n到m次由前面正则表达式定义的片段，贪婪模式
a\|b	匹配a或b
( )	匹配括号内的表达式，也表示一个组，便于使用group()提取里面内容

三、元字符使用举例

3.1 普通字符作为原子

原子：正则表达式的一个基本组成单位，每个正则表达式至少有一个原子

import re

str = "http://www.baidu.com"
pat = "baidu"
result = re.search(pat,str)
print(result)

在这里插入图片描述

3.2 非打印字符作为原子

import re

str = "abc\ndef"
pat="\n"
result=re.search(pat,str)
print(result)

在这里插入图片描述

3.3 范围匹配 [ ]

匹配大小写字母，数字，下划线（[[a-zA-Z0-9]]）
匹配数字（[0-9]）
匹配非数字（[^0-9]）

import re

str = "_abc123@def"
pat = "[abc]"
result=re.search(pat,str)
print(result)

在这里插入图片描述

3.4 匹配目标 ( )、+

()：匹配( )内的表达式，便于使用group()提取里面内容
+：至少匹配一次或多次

import re

str = 'Hello 123 abc Hello_World nice'
result = re.match('^Hello\s\d{3}\s\w{3}\s(\w+)', str)
print(result.group())
# 匹配第一个组如果后边有多个表达式还可以用group(2)、group(3)表示
print(result.group(1))

在这里插入图片描述

3.5 通用匹配 .*

.：匹配除换行符以外的任意字符
*：匹配前面字符无限次

import re

str = 'Hello 123 abc Hello_World nice'
result = re.match('^Hello.*nice$', str)
print(result.group())

在这里插入图片描述

3.6 贪婪模式 .*

.*：尽可能匹配多的字符

缺点：容易出现匹配结果缺失情况

（由于.*是贪婪模式，因此会尽可能多的匹配。字符.*后边是\d+没有指定多少次因此至少匹配一次，结合.*多匹配特性，因此就把12匹配掉了）

import re

str = 'Hello 123 abc Hello_World nice'
result = re.match('^H.*(\d+)', str)
print(result.group())
print(result.group(1))

在这里插入图片描述

3.7 非贪婪模式（懒惰模式）.*?

.*?：尽可能匹配少的字符

字符串中间尽量使用非贪婪模式，减少匹配结果缺失，如果匹配结果在字符串结尾，.*?有可能匹配不到部分/任何内容

（当.*?匹配到Hello后面的空白字符时，往后字符是数字而 (\d+)正好匹配，结合.*?少匹配的特性，到数字就不再匹配交由后边的元字符去匹配，因此是显示123）

import re

str = 'Hello 123 abc Hello_World nice'
result = re.match('^H.*?(\d+).*nice$', str)
print(result.group())
print(result.group(1))

在这里插入图片描述

四、正则表达式函数

4.1 match()

4.1.1 介绍

向该方法传入要匹配的字符串以及正则表达式，就可以匹配出这个正则表达式是否匹配字符串。该方法会从字符串开头匹配正则，匹配成功后返回结果，不匹配返回None。

缺点：需要开头匹配，如不匹配整个匹配就失败了，更适用于检测某个字符串是否符合某个正则表达式的规则。

4.1.2 示例

（使用正则匹配字符串中某段内容）

import re

str = 'Hello 123 abc Hello_World nice'
print(len(str))
# ^：匹配字符串开头； \s：匹配空白字符； \d\d\d：匹配三个数字字符; \w{3}：匹配三个数字/字母或者下划线
result = re.match('^Hello\s\d\d\d\s\w{3}', str)
print(result)
# 输出匹配内容
print(result.group())
# 输出匹配的范围
print(result.span())

在这里插入图片描述

4.2 search()

4.2.1 介绍

匹配时扫描整个字符串，然后返回第一个成功匹配的结果，如果搜索完了还没找到才返回None

4.2.2 示例

例1

如下方开头内容不为H即报错

（使用search()方法匹配整个字符串第一部分）

import re

str = 'Hello 123 abc Hello_World nice'
result = re.search('e.*(\d+).*', str)
print(result.group())

在这里插入图片描述

例2

（提取下方歌手和歌曲名）

import re

str = '''<dl>
<dt><a href="zhuanjilist/eounc.shtml" target="_blank"><img src="http://pic.yue365.com/4486/90723_100.jpg" border="0" alt="如约而至" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eounc.shtml" title="如约而至">如约而至</a></dd>
<dd><a href="/gequ/ssvi.shtml">许嵩</a></dd>
</dl>
<dl>
<dt><a href="zhuanjilist/eociv.shtml" target="_blank"><img src="http://pic.yue365.com/951/90368_100.jpg" border="0" alt="那是你离开了北京的生活" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eociv.shtml" title="那是你离开了北京">那是你离开了北京的生活</a></dd>
<dd><a href="/gequ/ewm.shtml">薛之谦</a></dd>
</dl>'''
# 代码有换行，.不匹配换行需要引入模式修饰符re.S
result = re.search('<dl>.*?title="(.*?)">.*?">(.*?)<', str, re.S)
if result:
	print(result.group(2), result.group(1))

else:
	print("匹配失败！")

Tips:
图下:
1处需要使用非贪婪模式，贪婪模式会匹配到薛之谦；
2处需要指定一个结尾，否则非贪婪模式下不匹配后边内容;
search()方法会返回第一个符合条件的匹配目标，因此这里是许嵩

在这里插入图片描述

4.3 findall()

4.3.1 介绍

获取匹配正则表达式的所有内容。搜索整个字符串，返回匹配正则的所有内容。

Tips:

如果使用print(result)则返回正则（.*?）中匹配的内容;
这里要注意和search()的区别：
search需要使用group()方法对元字符中的内容进行提取，而findall()使用索引即可对返回元组中的数据进行提取

4.3.2 举例

（返回匹配的所有歌手和歌名）

import re

str = '''<dl>
<dt><a href="zhuanjilist/eounc.shtml" target="_blank"><img src="http://pic.yue365.com/4486/90723_100.jpg" border="0" alt="如约而至" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eounc.shtml" title="如约而至">如约而至</a></dd>
<dd><a href="/gequ/ssvi.shtml">许嵩</a></dd>
</dl>
<dl>
<dt><a href="zhuanjilist/eociv.shtml" target="_blank"><img src="http://pic.yue365.com/951/90368_100.jpg" border="0" alt="那是你离开了北京的生活" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eociv.shtml" title="那是你离开了北京">那是你离开了北京的生活</a></dd>
<dd><a href="/gequ/ewm.shtml">薛之谦</a></dd>
</dl>'''

result = re.findall('<dl>.*?title="(.*?)">.*?">(.*?)<', str, re.S)
if result:
	print(result)
	print(type(result))
	print(result[0], "\n", result[1])

else:
	print("匹配失败！")

（返回一个列表，我们可以通过索引取出数据）
在这里插入图片描述

4.4 sub()

4.4.1 介绍

替换目标字符串

re.sub(pattern,repl,string,count=0)
–patten 规则
–repl 替换的字符
–string 原始字符串
–count 模式匹配后替换的最大次数，默认0表示替换所有匹配的值

4.4.2 举例

例1

将字符串中所有数字去掉

import re

str = 'S12324sdfswtwrs523426dsfk8'
result = re.sub('\d+', '' , str)
print(result)

第一个参数：传入匹配所有的数字
第二个参数：传入替换的字符串（这里是空）
第三个参数：原字符串

在这里插入图片描述

例2

“删减旧繁“，简化目标字符串（如删除HTML中不用的节点）

import re

str = '''<dl>
<dt><a href="zhuanjilist/eounc.shtml" target="_blank"><img src="http://pic.yue365.com/4486/90723_100.jpg" border="0" alt="如约而至" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eounc.shtml" title="如约而至">如约而至</a></dd>
<dd><a href="/gequ/ssvi.shtml">许嵩</a></dd>
</dl>
<dl>
<dt><a href="zhuanjilist/eociv.shtml" target="_blank"><img src="http://pic.yue365.com/951/90368_100.jpg" border="0" alt="那是你离开了北京的生活" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eociv.shtml" title="那是你离开了北京">那是你离开了北京的生活</a></dd>
<dd><a href="/gequ/ewm.shtml">薛之谦</a></dd>
</dl>'''
# 先删除无用的<dt>节点
html = re.sub('<dt.*?/dt>', '', str)
print(html)
print('-------------------------------------------')
# 再次删除<a>节点，保留歌手和歌曲名
html = re.sub('<a.*?>|</a>', '', html)
print(html)

（删除无用的节点如红框中所致，保留内容如绿框中所致）
在这里插入图片描述

4.5 compile()

4.5.1 介绍

将字符串编译成正则表达式对象。

4.5.2 举例

去掉三个日期中的时间，当有多个同类型目标要处理时可以使用compile()方法将正则表达式编译成一个对象来重复使用

import re

date1 = '2020-02-14 12:00'
date2 = '2020-05-20 13:00'
date3 = '2020-07-07 14:00'

pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern , '' , date1)
result2 = re.sub(pattern , '' , date2)
result3 = re.sub(pattern , '' , date3)
print(result1, result2, result3)

在这里插入图片描述

五、其它技巧

5.1 模式修正符

不改变正则表达式的情况下，通过模式修正符改变正则表达式的含义，从而实现匹配结果的调整

I：匹配时忽略大小写
M：多行匹配
L：本地化识别匹配
S：让 " . " 匹配换行符（在网页匹配中经常用到，因为HTML中经常有换行）

（举例1：匹配忽略大小写）

import re

str = "asdggepythoneee212ggghjkk"
pat = "Python"
result = re.search(pat,str,re.I)
print(result)

在这里插入图片描述
（举例2：使 . 匹配换行符）

5.2 转义匹配

反斜杠(\) 转义字符串中的元字符，使得字符串就是字符串

在这里插入图片描述

風月长情

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python之正则表达式

文章目录

一、介绍

1.1 含义

1.2 在线正则

二、常用匹配规则（元字符）

三、元字符使用举例

3.1 普通字符作为原子

3.2 非打印字符作为原子

3.3 范围匹配 [ ]

3.4 匹配目标 ( )、+

3.5 通用匹配 .*

3.6 贪婪模式 .*

3.7 非贪婪模式（懒惰模式）.*?

四、正则表达式函数

4.1 match()

4.1.1 介绍

4.1.2 示例

4.2 search()

4.2.1 介绍

4.2.2 示例

例1

例2

4.3 findall()

4.3.1 介绍

4.3.2 举例

4.4 sub()

4.4.1 介绍

4.4.2 举例

例1

例2

4.5 compile()

4.5.1 介绍

4.5.2 举例

五、其它技巧

5.1 模式修正符

5.2 转义匹配