正则系列3: re.findall用法

re.findall

搜索字符串,以列表形式返回能匹配的字符
该方法有3个参数,第一个就是你写的正则表达式,第二个匹配的目标字符串,第三个是一个匹配模式
re.findall(pattern, string, flags=0)

  • 匹配演练
    实战的效果是最好的,直接练习
#search是找一个结果的,findall是查询所有结果的。
import re

html='''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id ="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈惠琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>

练习1:
要求:匹配出li标签中既有歌手又有歌名的信息,包括超链接也匹配出来。
分析:我们可以看出排除了歌曲"一路有你",其余的歌曲,歌手,以及超链接都要匹配出来。

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results)  #返回list,元素由tuple组成
for result in results:
    print(result) #返回每个tuple元素
    print(result[0],result[1],result[2])  #打印出tuple中的字符串数据

结果:
[(’/2.mp3’, ‘任贤齐’, ‘沧海一声笑’), (’/3.mp3’, ‘齐秦’, ‘往事随风’), (’/4.mp3’, ‘beyond’, ‘光辉岁月’), (’/5.mp3’, ‘陈惠琳’, ‘记事本’), (’/6.mp3’, ‘邓丽君’, ‘但愿人长久’)]
(’/2.mp3’, ‘任贤齐’, ‘沧海一声笑’)
/2.mp3 任贤齐 沧海一声笑
(’/3.mp3’, ‘齐秦’, ‘往事随风’)
/3.mp3 齐秦 往事随风
(’/4.mp3’, ‘beyond’, ‘光辉岁月’)
/4.mp3 beyond 光辉岁月
(’/5.mp3’, ‘陈惠琳’, ‘记事本’)
/5.mp3 陈惠琳 记事本
(’/6.mp3’, ‘邓丽君’, ‘但愿人长久’)
/6.mp3 邓丽君 但愿人长久

练习2:
有些小伙伴就会疑问,练习1没有去匹配第一首歌名,我想匹配所有歌名,要怎么办。
要求:对上述html代码匹配出所有歌名。

#要匹配所有歌
# * 表多个 ?表是前面匹配有或者没有,就到前面
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
print(results)
print(type(results))
for result in results:
    print(result[1]) #拿到所有的歌名

结果:
[(’’, ‘一路上有你’, ‘’), (’’, ‘沧海一声笑’, ‘’), (’’, ‘往事随风’, ‘’), (’’, ‘光辉岁月’, ‘’), (’’, ‘记事本’, ‘’), (’’, ‘但愿人长久’, ‘’)]
<class ‘list’>
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
re.split函数用于根据正则表达式来分割字符串。它接受两个参数,第一个参数是正则表达式,第二个参数是要进行分割的字符串。这个函数会返回一个列表,其中包含了根据正则表达式分割后的子字符串。 re.finditer函数用于在字符串中查找所有满足正则表达式的非重叠出现,并返回一个迭代器。通过迭代器遍历可以获取到每个匹配到的对象,而每个匹配对象包含了匹配到的字符串以及对应的开始和结束索引。 re.findall函数用于在字符串中查找所有满足正则表达式的非重叠出现,并返回一个列表。这个函数的参数与re.finditer函数相同,但它直接返回一个包含匹配到的所有字符串的列表。 这三个函数可以很方便地用于字符串的处理和分析。通过正则表达式的灵活性,我们可以根据特定模式来对字符串进行分割、查找和提取。re.split函数可用于将一个字符串按照某个模式进行分割,比如可以将一段文字按照空格或标点进行分割成单词。re.finditer函数可以帮助我们在字符串中找到所有满足某个模式的部分,比如可以统计一段文字中出现了多少个特定的单词。re.findall函数则更加简便,可以一次性返回所有匹配的字符串。 总的来说,这三个函数在正则表达式的应用中非常常用,可以通过它们来进行字符串的拆分、提取和匹配,从而实现更灵活和高效的文本处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值