[python基础]详细的正则表达式

最终要匹配的 HTML 文本:

html = '''<div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齐秦">往事随风</a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
<li data-view="5">
<a href="/6.mp3" singer="邓丽君">但愿人长久</a>
</li>
</ul>
</div>'''

先确定使用那种函数

def match(pattern, string, flags=0):

def search(pattern, string, flags=0):

def findall(pattern, string, flags=0):
这是三个常用的函数,都使用三个参数
第一个参数是正则表达式,
第二个参数是表达式匹配文本,
第三个可以放入修饰的参数:较为常见的有
re.I 使匹配对大小写不敏感
re.S 使匹配包括换行在内的所有字符

第一个函数:match()

match 方法会尝试从字符串的起始位置匹配正则表达式,所以表达式开头必须是‘^开头字符’,如果匹配,就返回匹配成功的结果;如果不匹配,就返回 None。
该对象有两个方法:group 方法可以输出匹配的内容(在表达式中小括号的内容),恰好是正则表达式规则所匹配的内容;span 方法可以输出匹配的范围。
不适合从一个网页的代码中匹配,适合匹配一串字符。

content = 'Hello 123 4567 World_This is a Regex Demo'

从头开始匹配

results=re.match("^Hello.*",content)
print(results)

结果:成功匹配

<re.Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>

不从头开始匹配:

results=re.match("^World.*",content)

结果:None

第二个函数:search()

前面提到过,match 方法是从字符串的开头开始匹配的,一旦开头不匹配,那么整个匹配就失败了。 match 方法在使用时需要考虑到开头的内容,这在做匹配时并不方便。它更适合用来检测某个字符串是否符合某个正则表达式的规则。另外一个方法 search,它在匹配时会扫描整个字符串,然后返回第一个成功匹配的结果。也就是说,正则表达式可以是字符串的一部分,在匹配时,search 方法会依次扫描字符串,直到找到第一个符合规则的字符串,然后返回匹配内容,如果搜索完了还没有找到,就返回 None。search有两个方法和match一样,也用group返回匹配值

html = '''<div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齐秦">往事随风</a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
<li data-view="5">
<a href="/6.mp3" singer="邓丽君">但愿人长久</a>
</li>
</ul>
</div>'''

使用:

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S) 
if result:  
    print(result.group(1), result.group(2))

返回结果:

任贤齐 沧海一声笑

第三个函数:findall()

显然,前面介绍的两个函数match需要从头匹配,search只能返回一个匹配值,所以它们不适合返回一个网页中匹配的多个内容,
find all可以解决,该方法会搜索整个字符串,然后返回匹配正则表达式的所有内容。
因为我们要从html获得多个值
所以我们就用findall()
还是上面的 HTML 文本,如果想获取所有 a 节点的超链接、歌手和歌名,就可以将 search 方法换成 findall 方法。如果有返回结果的话,就是列表类型,所以需要遍历一下来依次获取每组内容。或者可以直接输出得到一个列表

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)  
print(type(results))  
for result in results:  
    print(result)  
    print(result[0], result[1], result[2])

返回结果:

[('/2.mp3', ' 任贤齐 ', ' 沧海一声笑 '), ('/3.mp3', ' 齐秦 ', ' 往事随风 '), ('/4.mp3', 'beyond', ' 光辉岁月 '), ('/5.mp3', ' 陈慧琳 ', ' 记事本 '), ('/6.mp3', ' 邓丽君 ', ' 但愿人长久 ')]
<class 'list'>
('/2.mp3', ' 任贤齐 ', ' 沧海一声笑 ')
/2.mp3 任贤齐 沧海一声笑
('/3.mp3', ' 齐秦 ', ' 往事随风 ')
/3.mp3 齐秦 往事随风
('/4.mp3', 'beyond', ' 光辉岁月 ')
/4.mp3 beyond 光辉岁月
('/5.mp3', ' 陈慧琳 ', ' 记事本 ')
/5.mp3 陈慧琳 记事本
('/6.mp3', ' 邓丽君 ', ' 但愿人长久 ')
/6.mp3 邓丽君 但愿人长久

正则表达式书写:

先用search讲解规则,最后用findall爬个例子
不用具体字符,可以用以下的匹配规则代替(举几个常见的):
\w 匹配字母、数字及下划线
\W 匹配不是字母、数字及下划线的字符
\s 匹配任意空白字符,等价于 [\t\n\r\f]
\S 匹配任意非空字符
\d 匹配任意数字,等价于 [0~9]
下面是控制字符格式和范围的匹配规则
^ 匹配一行字符串的开头
\A 匹配字符串开头
$ 匹配一行字符串的结尾
. 匹配任意字符,除了换行符,当 re.DOTALL 标记被指定时,则可以匹配包括换行符的任意字符
[…] 用来表示一组字符,单独列出,比如 [amk] 匹配 a、m 或 k
[^…] 不在 [] 中的字符,比如 匹配除了 a、b、c 之外的字符

  • *  匹配 0 个或多个表达式
    
  •  +  匹配 1 个或多个表达式
    

? 匹配 0 个或 1 个前面的正则表达式定义的片段,非贪婪方式
() 匹配括号内的表达式,也表示一个组

一.控制取值范围 :[]

在[]中只输入单个字符:这些字符可以被匹配到。如果输入字符-字符:则范围之内的字符都能被取到

content = 'Hello 123 456s7 World_This is a Regex Demo'

用search,只能返回第一个匹配成功的结果
匹配数字

import re
content = 'Hello 123 456s7 World_This is a Regex Demo'
results1=re.search("[123456789]",content)
results2=re.search("[0-3]",content)
results3=re.search("[0-0]",content)
print(results1)
print(results2)
print(results3)
<re.Match object; span=(6, 7), match='1'>
<re.Match object; span=(6, 7), match='1'>
None

匹配字母

import re
content = 'Hello 123 456s7 World_This is a Regex Demo'
results1=re.search("[W]",content)
results2=re.search("[A-C]",content)
print(results1)
print(results2)

<re.Match object; span=(16, 17), match='W'>
None

如果用findall则返回全部结果,结果是个列表

import re
content = 'Hello 123 456s7 World_This is a Regex Demo'
results1=re.findall("[123]",content)
results2=re.findall("[0-9]",content)
results3=re.findall("[A-z]",content)
print(results1)
print(results2)
print(results3)

结果:

['1', '2', '3']
['1', '2', '3', '4', '5', '6', '7']
['H', 'e', 'l', 'l', 'o', 's', 'W', 'o', 'r', 'l', 'd', '_', 'T', 'h', 'i', 's', 'i', 's', 'a', 'R', 'e', 'g', 'e', 'x', 'D', 'e', 'm', 'o']

在[]中写上 ^字符,则该字符无法被匹配,如果是字符到字符,则该范围内无法被匹配
search:

import re
content = 'Hello 123 456s7 World_This is a Regex Demo'
results1=re.search("[^W]",content)
results2=re.search("[^He]",content)
results3=re.search("[^Hello\s]",content)
print(results1)
print(results2)
print(results3)

结果:

<re.Match object; span=(0, 1), match='H'>
<re.Match object; span=(2, 3), match='l'>
<re.Match object; span=(6, 7), match='1'>

findall()

import re
content = 'Hello 123 456s7 World_This is a Regex Demo'
results1=re.findall("[^H]",content)
results2=re.findall("[^123456]",content)
results3=re.findall("[^1-6]",content)
results4=re.findall("[^123A-z]",content)
print(results1)
print(results2)
print(results3)
print(results4)

结果

['e', 'l', 'l', 'o', ' ', '1', '2', '3', ' ', '4', '5', '6', 's', '7', ' ', 'W', 'o', 'r', 'l', 'd', '_', 'T', 'h', 'i', 's', ' ', 'i', 's', ' ', 'a', ' ', 'R', 'e', 'g', 'e', 'x', ' ', 'D', 'e', 'm', 'o']
['H', 'e', 'l', 'l', 'o', ' ', ' ', 's', '7', ' ', 'W', 'o', 'r', 'l', 'd', '_', 'T', 'h', 'i', 's', ' ', 'i', 's', ' ', 'a', ' ', 'R', 'e', 'g', 'e', 'x', ' ', 'D', 'e', 'm', 'o']
['H', 'e', 'l', 'l', 'o', ' ', ' ', 's', '7', ' ', 'W', 'o', 'r', 'l', 'd', '_', 'T', 'h', 'i', 's', ' ', 'i', 's', ' ', 'a', ' ', 'R', 'e', 'g', 'e', 'x', ' ', 'D', 'e', 'm', 'o']
[' ', ' ', '4', '5', '6', '7', ' ', ' ', ' ', ' ', ' ']

用\d就是【0-9】,\w 匹配字母、数字及下划线,可以代表【A-z0-9_】,总之,[]是用来匹配取值范围的,用find all和match的区别还是很大的。

二.控制取值的个数

  • *  匹配 0 个或多个表达式
    
  • +  匹配 1 个或多个表达式
    

可有可没有通过*和+来控制
*代表可有可没有,+代表至少有1个
?用来控制非贪婪,也就是自动匹配到下一间断,不会尽可能多的匹配。

import re
content = 'Hello123456sWorld_This is a Regex Demo'
results2=re.findall("\d{2}s*",content)
results3=re.findall("\d{2}s+",content)
print(results2)
print(results3)

结果

['12', '34', '56s']
['56s']

注意:如果是 : (字符1)(字符2)* 则只对字符2起作用
如果是对多个字符模糊匹配,要用其它的形式。

content = 'Hello123456lr2341234_This is a Regex Demo'
results1=re.findall("\d{2}lr*",content)
results2=re.findall("\d{2}lr+",content)
results3=re.findall("\d{2}l*r*",content)
results4=re.findall("\d{2}[a-zA-Z]*",content)
rs1=re.search("\d{2}lr*",content)
rs2=re.search("\d{2}lr+",content)
rs3=re.search("\d{2}l*r*",content)
rs4=re.search("\d{2}l+r+",content)
print(results1)
print(results2)
print(results3)
print(results4)
print(rs1)
print(rs2)
print(rs3)
print(rs4)

结果:

['56lr']
['56lr']
['12', '34', '56lr', '23', '41', '23']
['12', '34', '56lr', '23', '41', '23']
<re.Match object; span=(9, 13), match='56lr'>
<re.Match object; span=(9, 13), match='56lr'>
<re.Match object; span=(5, 7), match='12'>
<re.Match object; span=(9, 13), match='56lr'>

使用 (. * )和(. *?)来匹配大量字符

.代表任意字符,*则代表匹配0或多个,组合起来就是匹配任意多的字符,也就是贪婪,会匹配尽可能多的字符。
非贪婪模式下,在(.*?) 中,? 匹配 0 个或 1 个前面的 正则表达式定义的片段,最总要的是()字,或表达式中如果有一个成立就满足表达式,如果前面有一个字符串满足了表达式就停止了,没有匹配到字符串也成立,比如一串数字后出现了空格,或者字母,就会满足一个或表达式,就会停止匹配,所以是非贪婪。
下面的例子:
(.*?)N:注意(.*)会经可能的多匹配,因为(.*?)可以匹配0个,所以当(.?)没有必要匹配时,是不会匹配到内容的。
'http.
?comment/(.?)N’中因为后面有个N,所以如果不匹配1个内容的话,表达式是匹配失败的,所以必定匹配到内容。
'http.
?comment/k(.?)'中因为不需要(.*?)也能匹配到http.?comment/k,所以匹配到0个内容即可。
同理:'http.?comment/(.?)'中不需要(.*?)也能匹配到http.?comment/,所以匹配到0个内容即可。
而http.
?comment/(.*)\w+,中因为使用了贪婪模式,所以会经可能多的匹配,因为必须满足结尾\w+,才能匹配成功,所以匹配到了kEraC,N则没有匹配到
尽量都使用(.*?),不然贪婪模式可能会出现难以想象的情况。


import re

content = 'http://weibo.com/comment/kEraCN'
result1 = re.search('http.*?comment/(.*?)N', content)
result2 = re.search('http.*?comment/k(.*?)', content)
result3 = re.search('http.*?comment/(.*?)', content)
result4 = re.match('http.*?comment/(.*)\w+', content)
print('result1', result1.group(1))
print('result2', result2.group(1))
print('result3', result3.group(1))
print('result4', result4.group(1))

结果:

result1 kEraC
result2 
result3 
result4 kEraC

三.从多行范围内匹配:re.S

html = '''<div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齐秦">往事随风</a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
<li data-view="5">
<a href="/6.mp3" singer="邓丽君">但愿人长久</a>
</li>
</ul>
</div>'''

前面说过了,如果想从网页中匹配多个结果,就使用findall(),
现在我们观察到

  • 标签中包含我们需要的信息,有的包含<a>标签,有的则没有。
    首先,我们尝试提取 class为 active 的 li 节点内部超链接包含的歌手名和歌名,此时需要提取第三个 li 节点下 a 节点的 singer 属性和文本。
    因为要匹配的文本中换行了,所以需要re.S
  • results1=re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
    results2=re.search('<li.*active.*singer="(.*?)">(.*?)</a>',html,re.S)
    print(results1.group(1),results1.group(2))
    print(results2.group(1),results2.group(2))
    

    结果:

    齐秦 往事随风
    邓丽君 但愿人长久
    

    看,如果不使用非贪婪模式,就会出错,所以尽量使用非贪婪。
    接下来我们来匹配一下歌手和歌曲:

    results=re.findall("singer=(.*?)>(.*?)</a>",html)
    for r in results:
        print(r[0],r[1])
    
    "任贤齐" 沧海一声笑
    "齐秦" 往事随风
    "beyond" 光辉岁月
    "陈慧琳" 记事本
    "邓丽君" 但愿人长久
    

    四.借助sub来修改文本

    import re
    
    content = '54aK54yr5oiR54ix5L2g'
    content = re.sub('\d+', '', content)
    print(content)
    
    

    运行结果如下:

    aKyroiRixLg
    

    这里只需要给第一个参数传入 \d+ 来匹配所有的数字,第二个参数替换成的字符串(如果去掉该参数的话,可以赋值为空),第三个参数是原字符串。
    可以先用 sub 方法将 a 节点去掉,只留下文本,然后再利用 findall 提取就好了:

    html = re.sub('<a.*?>|</a>', '', html)
    print(html)
    results = re.findall('<li.*?>(.*?)</li>', html, re.S)
    for result in results:
        print(result.strip())
    
    

    运行结果如下:

    <div id="songs-list">
        <h2 class="title"> 经典老歌 </h2>
        <p class="introduction">
            经典老歌列表
        </p>
        <ul id="list" class="list-group">
            <li data-view="2"> 一路上有你 </li>
            <li data-view="7">
                沧海一声笑
            </li>
            <li data-view="4" class="active">
                往事随风
            </li>
            <li data-view="6"> 光辉岁月 </li>
            <li data-view="5"> 记事本 </li>
            <li data-view="5">
                但愿人长久
            </li>
        </ul>
    </div>
    一路上有你
    沧海一声笑
    往事随风
    光辉岁月
    记事本
    但愿人长久
    
    

    表达式的封装:compile
    前面所讲的方法都是用来处理字符串的方法,最后再介绍一下 compile 方法,这个方法可以将正则字符串编译成正则表达式对象,以便在后面的匹配中复用。

    示例代码如下:

    import re
    
    content1 = '2019-12-15 12:00'
    content2 = '2019-12-17 12:55'
    content3 = '2019-12-22 13:21'
    pattern = re.compile('\d{2}:\d{2}')
    result1 = re.sub(pattern, '', content1)
    result2 = re.sub(pattern, '', content2)
    result3 = re.sub(pattern, '', content3)
    print(result1, result2, result3)
    
    

    这里有 3 个日期,我们想分别将 3 个日期中的时间去掉,这时可以借助 sub 方法。该方法的第一个参数是正则表达式,但是我们没有必要重复写 3 个同样的正则表达式。此时可以借助 compile 方法将正则表达式编译成一个正则表达式对象,以便复用。
    运行结果如下:

    2019-12-15  2019-12-17  2019-12-22
    

    另外,compile 还可以传入修饰符,例如 re.S 等修饰符,这样在 search、findall 等方法中就不需要额外传了。所以,compile 方法可以说是给正则表达式做了一层封装,以便我们更好的复用。

    参考:https://kaiwu.lagou.com/course/courseInfo.htm?courseId=46#/detail/pc?id=1669

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值