正则写得6，老板夸我秀。使用python写正则表达式

最新推荐文章于 2023-01-02 19:47:42 发布

一只小EZ

最新推荐文章于 2023-01-02 19:47:42 发布

阅读量370

点赞数 3

分类专栏：爬虫文章标签： python 正则表达式字符串爬虫

本文链接：https://blog.csdn.net/qq_35649669/article/details/113828395

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

简介

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

正则是一种很强大的文本索引匹配以及替换的工具。
在python 中使用re库来写正则。

索引

这里附录了正则表达式的规范，方便以后进行查找。学习的话可以跳过此部分先看正文。

常用的匹配规则

模式	描述
`\w`	匹配字母、数字及下划线
`\W`	匹配不是字母、数字及下划线的字符
`\s`	匹配任意空白字符，等价于[ \t\n\r\f]
`\S`	匹配任意非空字符
`\d`	匹配任意数字，等价于[0-9]
`\D`	匹配任意非数字的字符
`\A`	匹配字符串开头
`\Z`	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
`\z`	匹配字符串结尾，如果存在换行，同时还会匹配换行符
`\G`	匹配最后匹配完成的位置
`\n`	匹配一个换行符
`\t`	匹配一个制表符
`^`	匹配一行字符串的开头
`$`	匹配一行字符串的结尾
`.`	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
`[...]`	用来表示一组字符，单独列出，比如[amk]匹配a、m或k
`[^...]`	不在[]中的字符，比如[^abc]匹配除了a、b、c之外的字符
`*`	匹配0个或多个表达式
`+`	匹配1个或多个表达式
`?`	匹配0个或1个前面的正则表达式定义的片段，非贪婪方式
`{n}`	精确匹配n个前面的表达式
`{n, m}`	匹配n到m次由前面正则表达式定义的片段，贪婪方式
`a`\|`b`	匹配a或b
`( )`	匹配括号内的表达式，也表示一个组

修饰符

修饰符	描述
`re.I`	使匹配对大小写不敏感
`re.L`	做本地化识别（locale-aware）匹配
`re.M`	多行匹配，影响^和$
`re.S`	使.匹配包括换行在内的所有字符
`re.U`	根据Unicode字符集解析字符。这个标志影响\w、\W\B
`re.X`	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

正文

我们常常可能会看到如在线正则表达式测试
中复杂的正则表达式 [a-zA-z]+://[^\s]*

却不知道该如何使用。

其实如果能明白正则的写法，就会发现它是如此的简单且好用,

match()方法

match()方法会尝试从字符串的起始位置匹配正则表达式，如果匹配，就返回匹配成功的结果；如果不匹配，就返回None。
示例如下：

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
#输出匹配的内容
print(result.group())
#输出匹配的范围
print(result.span())

结果为

41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

^Hello\s\d\d\d\s\d{4}\s\w{10}
^表示从开头匹配，即匹配开头为Hello的字符串。
\s表示匹配一个空格字符
\d表示匹配一个数字字符这里有三个 \d 即匹配三个数字
接下来\s表示匹配一个空格字符
\d{4} 表示匹配四个数字字符与前面的\d\d\d\d效果相同
接下来\s表示匹配一个空格字符
\w{10}表示匹配十个(字母、数字及下划线)的字符

匹配目标
用match()方法可以得到匹配到的字符串内容，使用（）可以将特定的内容从匹配到的字符串中提取。

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

结果为

<_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)

+ 表示匹配1个或多个表达式
group()输出匹配到的全部内容
group(1)输出第一个()中匹配到的内容

通用匹配

使用.*进行通用匹配
其中.代表除换行符外的任意字符
*代表匹配无限次(0个或多个)

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result.group())
print(result.span())

结果为

Hello 123 4567 World_This is a Regex Demo
(0, 41)

贪婪与非贪婪
当使用.*时，有时候匹配到的并不是我们想要的结果。

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('He.*(\d+).*Demo', content)
print(result)
print(result.group(1))

结果为

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7

这是因为.*是贪婪匹配会匹配尽可能多的字符，所以留给\d+的就只有一个数字
非贪婪匹配的写法是.*?

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('He.*?(\d+).*Demo', content)
print(result.group())
print(result.group(1))
result = re.match('He.*?(\d+).*?', content)
print('---------')
print(result.group())
print(result.group(1))

结果为

Hello 1234567 World_This is a Regex Demo
1234567
---------
Hello 1234567
1234567

非贪婪匹配就是尽可能匹配少的字符
当.*?匹配到Hello时，再往后的字符就是数字了，而\d+恰好可以匹配，那么这里.*?就不再进行匹配，
对于末尾的.*?，由于非贪婪尽可能匹配少的字符，所以会匹配为空。

修饰符

其中.代表除换行符外的任意字符，对于有换行的字符串，可以添加修饰符。

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
#不加修饰符是匹配不到的
#result = re.match('^He.*?(\d+).*?Demo$', content)
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
print(result.group(1))

结果为

修饰符re.S的作用是使.匹配包括换行符在内的所有字符。
其它修饰符的功能见开头的索引。

转义匹配
使用\当做转义符

import re

content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result)

结果为

<_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>

search() 方法

match()方法是从字符串的开头开始匹配的，所以对于长字符串中间部分的搜素不是很方便。
（注:同时对于前面的教程，^Hello中^是多余的，因为match本来就是从开头匹配。）

search()方法在匹配时会扫描整个字符串，然后返回第一个成功匹配的结果。

对于如下html文本

html = '''<div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齐秦">往事随风</a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
<li data-view="5">
<a href="/6.mp3" singer="邓丽君">但愿人长久</a>
</li>
</ul>
</div>'''

我们尝试提取class为active的li节点内部的超链接包含的歌手名和歌名，此时需要提取第三个li节点下a节点的singer属性和文本。
即齐秦和沧海一声笑
写规则为

<li.*?active.*?singer="(.*?)">(.*?)</a>

正则表达式以li开头，然后寻找一个标志符active，中间的部分可以用.*?来匹配。接下来，要提取singer这个属性值，所以还需要写入singer="(.*?)".
然后还需要匹配a节点下的文本，其中它的左边界是>，右边界是</a>。

import re
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
print(result.group(1), result.group(2))

结果为

齐秦 往事随风

正则写成

active.*?singer="(.*?)">(.*?)<
结果也是一样的

findall() 方法

findall()方法会搜索整个字符串，然后返回匹配正则表达式的所有内容。

#相对于上面新增加了链接的获取
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])

结果为

[('/2.mp3', '任贤齐', '沧海一声笑'), ('/3.mp3', '齐秦', '往事随风'), ('/4.mp3', 'beyond', '光辉岁月'),
    ('/5.mp3', '陈慧琳', '记事本'), ('/6.mp3', '邓丽君', '但愿人长久')]
<class 'list'>
('/2.mp3', '任贤齐', '沧海一声笑')
/2.mp3 任贤齐沧海一声笑
('/3.mp3', '齐秦', '往事随风')
/3.mp3 齐秦往事随风
('/4.mp3', 'beyond', '光辉岁月')
/4.mp3 beyond 光辉岁月
('/5.mp3', '陈慧琳', '记事本')
/5.mp3 陈慧琳记事本
('/6.mp3', '邓丽君', '但愿人长久')
/6.mp3 邓丽君但愿人长久

可以看到返回的是列表类型

sub()方法

除了使用正则表达式提取信息外，有时候还需要借助它来修改文本。
比如把一串文本中的所有数字都去掉。

import re

content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
print(content)

结果为

aKyroiRixLg

这里只需要给第一个参数传入\d+来匹配所有的数字，第二个参数为替换成的字符串（如果去掉该参数的话，可以赋值为空），第三个参数是原字符串。
对于上述的html，可以先用sub()方法将a节点去掉，只留下文本，然后再利用findall()提取，会更简便。

html = re.sub('<a.*?>|</a>', '', html)
print(html)
print('----------')
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
    print(result.strip())

结果为

<div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
沧海一声笑
</li>
<li data-view="4" class="active">
往事随风
</li>
<li data-view="6">光辉岁月</li>
<li data-view="5">记事本</li>
<li data-view="5">
但愿人长久
</li>
</ul>
</div>
----------
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久

使用函数替换
对于一些复杂替换，需要自写函数来进行。
比如在markdown中 re.S格式这样的需要两侧加`号来实现。

data = '''修饰符|描述
re.I|使匹配对大小写不敏感
re.L|做本地化识别（locale-aware）匹配
re.M|多行匹配，影响^和$
re.S|使.匹配包括换行在内的所有字符
re.U|根据Unicode字符集解析字符。这个标志影响\w、\W\B
re.X|该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解'''

def _add(matched):
    #print(matched.group())
    matched = "`"+ matched.group() + "`"
    return matched
data = re.sub('re.\w',_add,data)
print(data)

结果为

修饰符|描述
`re.I`|使匹配对大小写不敏感
`re.L`|做本地化识别（locale-awa`re）匹`配
`re.M`|多行匹配，影响^和$
`re.S`|使.匹配包括换行在内的所有字符
`re.U`|根据Unicode字符集解析字符。这个标志影响\w、\W\B
`re.X`|该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

一个简单的自写函数小例子，可以用于简单的数据排列转换

data = '''
1
2
3
4
'''

def _add(matched):
    matched = "\'"+ matched.group(1) + "\',"
    return matched
data = re.sub('(.+)[\n]*',_add,data)
print(data)

结果为


'1','2','3','4',

complie() 方法

compile()方法可以将正则字符串编译成正则表达式对象，以便在后面的匹配中复用。

import re

content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)

结果为

2016-12-15  2016-12-17  2016-12-22

另外，compile()还可以传入修饰符，例如re.S等修饰符，这样在search()、findall()等方法中就不需额外传递。

开头的正则解析

[a-zA-z]+://[^\s]*
[a-zA-z]+表示匹配一个以上的小写字符以及大小写字符
严格来讲[A-z]+即可。或者[a-zA-Z]+
://正常匹配
[^\s]*表示匹配0个或多个 非空字符

这样的话就可以进行URL的匹配抓取。

注：[A-z]将匹配范围从A到z的ASCII字符，而[a-zA-Z]将匹配范围从A到Z和的ASCII字符，范围从a到z。乍一看，这似乎是等价的——但是，如果您查看ASCII字符的this table，您将看到A-z包含其他几个字符。具体来说，它们是[、\、]、^、_和`。