Python之正则表达式


在这里插入图片描述

一、介绍

1.1 含义

  正则表达式(regular expression),用一种特殊的"规则字符串"来表达对字符串的一种过滤逻辑(对字符串检索、替换、匹配验证的表达式),对于爬虫来说就是从HTML中提取数据信息。

1.2 在线正则

二、常用匹配规则(元字符)

正则表达式中具有一些特殊含义的字符,比如:重复N次前面的字符

模式描述
\d匹配一个数字字符([0-9])
\D匹配一个非数字字符([^0-9])
\w匹配数字、字母及下划线([[a-zA-Z0-9]])
\W匹配非字母、数字及下划线([^a-zA-Z0-9])(可匹配特殊符号 @#¥)
\s匹配任何空白字符,包括空格,制表符,换页符([\f\n\t\v])
\S匹配任何非空白字符([^\f\n\t\v])
\A匹配字符串开头
\z匹配字符串结尾,如果存在换行,同时还会匹配换行符
\Z匹配字符串结尾,如果存在换行,只匹配到换行前的结束字符串
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配到字符串开始的位置
$匹配到字符串结束的位置
[…]用来表示一组字符,单独列出,比如[abc],匹配a,b或c
.匹配除了换行符以外的任意单个字符
*匹配0个或多个表达式,匹配前面字符无限次
?匹配0次,1次{0, 1},非贪婪模式
+至少匹配1次或多次{1, }
{n}精确匹配n个前面的表达式
{n, }前面的数字至少出现n次
{n, m}匹配n到m次由前面正则表达式定义的片段,贪婪模式
a|b匹配a或b
( )匹配括号内的表达式,也表示一个组,便于使用group()提取里面内容

三、元字符使用举例

3.1 普通字符作为原子

原子:正则表达式的一个基本组成单位,每个正则表达式至少有一个原子

import re

str = "http://www.baidu.com"
pat = "baidu"
result = re.search(pat,str)
print(result)

在这里插入图片描述

3.2 非打印字符作为原子

import re

str = "abc\ndef"
pat="\n"
result=re.search(pat,str)
print(result)

在这里插入图片描述

3.3 范围匹配 [ ]

匹配大小写字母,数字,下划线([[a-zA-Z0-9]])
匹配数字([0-9])
匹配非数字([^0-9])
import re

str = "_abc123@def"
pat = "[abc]"
result=re.search(pat,str)
print(result)

在这里插入图片描述

3.4 匹配目标 ( )、+

():匹配( )内的表达式,便于使用group()提取里面内容
+:至少匹配一次或多次

import re

str = 'Hello 123 abc Hello_World nice'
result = re.match('^Hello\s\d{3}\s\w{3}\s(\w+)', str)
print(result.group())
# 匹配第一个组如果后边有多个表达式还可以用group(2)、group(3)表示
print(result.group(1))

在这里插入图片描述

3.5 通用匹配 .*

.:匹配除换行符以外的任意字符
*:匹配前面字符无限次

import re

str = 'Hello 123 abc Hello_World nice'
result = re.match('^Hello.*nice$', str)
print(result.group())

在这里插入图片描述

3.6 贪婪模式 .*

.*:尽可能匹配多的字符

缺点:容易出现匹配结果缺失情况

(由于.*是贪婪模式,因此会尽可能多的匹配。字符.*后边是\d+没有指定多少次因此至少匹配一次,结合.*多匹配特性,因此就把12匹配掉了)

import re

str = 'Hello 123 abc Hello_World nice'
result = re.match('^H.*(\d+)', str)
print(result.group())
print(result.group(1))

在这里插入图片描述

3.7 非贪婪模式(懒惰模式).*?

.*?:尽可能匹配少的字符

字符串中间尽量使用非贪婪模式,减少匹配结果缺失,如果匹配结果在字符串结尾,.*?有可能匹配不到部分/任何内容
在这里插入图片描述

(当.*?匹配到Hello后面的空白字符时,往后字符是数字而 (\d+)正好匹配,结合.*?少匹配的特性,到数字就不再匹配交由后边的元字符去匹配,因此是显示123)

import re

str = 'Hello 123 abc Hello_World nice'
result = re.match('^H.*?(\d+).*nice$', str)
print(result.group())
print(result.group(1))

在这里插入图片描述

四、正则表达式函数

4.1 match()

4.1.1 介绍

  向该方法传入要匹配的字符串以及正则表达式,就可以匹配出这个正则表达式是否匹配字符串。该方法会从字符串开头匹配正则,匹配成功后返回结果,不匹配返回None。

缺点:需要开头匹配,如不匹配整个匹配就失败了,更适用于检测某个字符串是否符合某个正则表达式的规则。

4.1.2 示例

(使用正则匹配字符串中某段内容)

import re

str = 'Hello 123 abc Hello_World nice'
print(len(str))
# ^:匹配字符串开头; \s:匹配空白字符; \d\d\d:匹配三个数字字符; \w{3}:匹配三个数字/字母或者下划线
result = re.match('^Hello\s\d\d\d\s\w{3}', str)
print(result)
# 输出匹配内容
print(result.group())
# 输出匹配的范围
print(result.span())

在这里插入图片描述

4.2 search()

4.2.1 介绍

  匹配时扫描整个字符串,然后返回第一个成功匹配的结果,如果搜索完了还没找到才返回None

4.2.2 示例
例1

如下方开头内容不为H即报错
在这里插入图片描述
(使用search()方法匹配整个字符串第一部分)

import re

str = 'Hello 123 abc Hello_World nice'
result = re.search('e.*(\d+).*', str)
print(result.group())

在这里插入图片描述

例2

(提取下方歌手和歌曲名)

import re

str = '''<dl>
<dt><a href="zhuanjilist/eounc.shtml" target="_blank"><img src="http://pic.yue365.com/4486/90723_100.jpg" border="0" alt="如约而至" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eounc.shtml" title="如约而至">如约而至</a></dd>
<dd><a href="/gequ/ssvi.shtml">许嵩</a></dd>
</dl>
<dl>
<dt><a href="zhuanjilist/eociv.shtml" target="_blank"><img src="http://pic.yue365.com/951/90368_100.jpg" border="0" alt="那是你离开了北京的生活" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eociv.shtml" title="那是你离开了北京">那是你离开了北京的生活</a></dd>
<dd><a href="/gequ/ewm.shtml">薛之谦</a></dd>
</dl>'''
# 代码有换行,.不匹配换行需要引入模式修饰符re.S
result = re.search('<dl>.*?title="(.*?)">.*?">(.*?)<', str, re.S)
if result:
	print(result.group(2), result.group(1))

else:
	print("匹配失败!")

Tips:
图下:
1处需要使用非贪婪模式,贪婪模式会匹配到薛之谦;
2处需要指定一个结尾,否则非贪婪模式下不匹配后边内容;
search()方法会返回第一个符合条件的匹配目标,因此这里是许嵩

在这里插入图片描述

4.3 findall()

4.3.1 介绍

  获取匹配正则表达式的所有内容。搜索整个字符串,返回匹配正则的所有内容。

Tips:

  1. 如果使用print(result)则返回正则(.*?)中匹配的内容;
  2. 这里要注意和search()的区别:
    search需要使用group()方法对元字符中的内容进行提取,而findall()使用索引即可对返回元组中的数据进行提取
4.3.2 举例

(返回匹配的所有歌手和歌名)

import re

str = '''<dl>
<dt><a href="zhuanjilist/eounc.shtml" target="_blank"><img src="http://pic.yue365.com/4486/90723_100.jpg" border="0" alt="如约而至" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eounc.shtml" title="如约而至">如约而至</a></dd>
<dd><a href="/gequ/ssvi.shtml">许嵩</a></dd>
</dl>
<dl>
<dt><a href="zhuanjilist/eociv.shtml" target="_blank"><img src="http://pic.yue365.com/951/90368_100.jpg" border="0" alt="那是你离开了北京的生活" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eociv.shtml" title="那是你离开了北京">那是你离开了北京的生活</a></dd>
<dd><a href="/gequ/ewm.shtml">薛之谦</a></dd>
</dl>'''

result = re.findall('<dl>.*?title="(.*?)">.*?">(.*?)<', str, re.S)
if result:
	print(result)
	print(type(result))
	print(result[0], "\n", result[1])

else:
	print("匹配失败!")

(返回一个列表,我们可以通过索引取出数据)
在这里插入图片描述

4.4 sub()

4.4.1 介绍

  替换目标字符串

re.sub(pattern,repl,string,count=0)
–patten 规则
–repl 替换的字符
–string 原始字符串
–count 模式匹配后替换的最大次数,默认0表示替换所有匹配的值

4.4.2 举例
例1

将字符串中所有数字去掉

import re

str = 'S12324sdfswtwrs523426dsfk8'
result = re.sub('\d+', '' , str)
print(result)

第一个参数:传入匹配所有的数字
第二个参数:传入替换的字符串(这里是空)
第三个参数:原字符串

在这里插入图片描述

例2

“删减旧繁“,简化目标字符串(如删除HTML中不用的节点)

import re

str = '''<dl>
<dt><a href="zhuanjilist/eounc.shtml" target="_blank"><img src="http://pic.yue365.com/4486/90723_100.jpg" border="0" alt="如约而至" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eounc.shtml" title="如约而至">如约而至</a></dd>
<dd><a href="/gequ/ssvi.shtml">许嵩</a></dd>
</dl>
<dl>
<dt><a href="zhuanjilist/eociv.shtml" target="_blank"><img src="http://pic.yue365.com/951/90368_100.jpg" border="0" alt="那是你离开了北京的生活" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eociv.shtml" title="那是你离开了北京">那是你离开了北京的生活</a></dd>
<dd><a href="/gequ/ewm.shtml">薛之谦</a></dd>
</dl>'''
# 先删除无用的<dt>节点
html = re.sub('<dt.*?/dt>', '', str)
print(html)
print('-------------------------------------------')
# 再次删除<a>节点,保留歌手和歌曲名
html = re.sub('<a.*?>|</a>', '', html)
print(html)

(删除无用的节点如红框中所致,保留内容如绿框中所致)
在这里插入图片描述

4.5 compile()

4.5.1 介绍

  将字符串编译成正则表达式对象。

4.5.2 举例

去掉三个日期中的时间,当有多个同类型目标要处理时可以使用compile()方法将正则表达式编译成一个对象来重复使用

import re

date1 = '2020-02-14 12:00'
date2 = '2020-05-20 13:00'
date3 = '2020-07-07 14:00'

pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern , '' , date1)
result2 = re.sub(pattern , '' , date2)
result3 = re.sub(pattern , '' , date3)
print(result1, result2, result3)

在这里插入图片描述

五、其它技巧

5.1 模式修正符

不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现匹配结果的调整

  • I:匹配时忽略大小写
  • M:多行匹配
  • L:本地化识别匹配
  • S:让 " . " 匹配换行符(在网页匹配中经常用到,因为HTML中经常有换行)

(举例1:匹配忽略大小写)

import re

str = "asdggepythoneee212ggghjkk"
pat = "Python"
result = re.search(pat,str,re.I)
print(result)

在这里插入图片描述
(举例2:使 . 匹配换行符)
在这里插入图片描述

5.2 转义匹配

反斜杠(\) 转义字符串中的元字符,使得字符串就是字符串

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

風月长情

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值