python循环使用正则表达式匹配速度慢

1.问题描述

现在有一系列的模糊匹配规则,需要对一个文档中的每一个句子利用每一个匹配规则进行正则匹配,具体代码如下:

# sentences为句子列表
# re_str为正则表达式列表,其中元素类似 "^你好$" 这种正则表达式

for sent in sentences:
    for pattern in re_str:
        if re.findall(pattern, sent):
            print(sent)
            break

代码很简单,但是在运行时出现了一个问题,就是匹配速度非常慢,而且re_str的数量存在一个临界值,当数量大于临界值,匹配速度大大降低,当数量小于临界值,匹配速度大幅提升。

2.解决办法

首先说一下解决办法,解决办法就是利用re.complie对每一个正则表达式进行编译,具体如下:

# sentences为句子列表
# re_str为正则表达式列表,其中元素类似 "^你好$" 这种正则表达式

patterns = [re.compile(i) for i in re_str]

for sent in sentences:
    for pattern in patterns :
        if pattern.findall(sent):
            print(sent)
            break

3.原因分析

个人认为,正则表达式匹配时,首先会对正则匹配字符串进行编译,然后将编译结果进行缓存,但是缓存大小是有限的,所以当正则表达式数量达到一定规模时,新的编译结果会将之前结果覆盖,也就是说每次对一个新的句子进行匹配时都需要对所有正则表达式进行重新编译,这是主要的耗时点。反之亦然。

Python使用正则表达式暴力爬取豆瓣电影是一种可以快速获取电影信息的方法。首先,我们需要使用requests库获取豆瓣电影页面的HTML源代码。接下来,使用正则表达式对源代码进行匹配和提取。例如,如果我们想获取电影的名称、评分和导演信息,我们可以使用正则表达式匹配对应的HTML标签并提取出所需的文本信息。比如使用正则表达式" <span class="title">(.+?)</span>" 可以匹配到电影名称所在的标签。 接下来,我们可以通过循环遍历的方式不断获取更多的电影信息。假设每个页面显示20部电影,我们可以使用正则表达式找到下一页的链接,并不断访问并抓取数据。 当然,使用正则表达式爬取数据也有一些缺点。因为正则表达式往往较为复杂,所以代码可读性较差,容易出错和不易维护。此外,如果网页结构发生变化,我们需要手动修改正则表达式以适应变化,工作量较大。因此,当网页结构较为复杂或者需要爬取大量数据时,我们可以考虑使用更强大的爬虫框架如Scrapy,它集成了更多方便的功能,如自动跟踪链接和处理异步加载的数据等。 总之,对于简单的爬取任务,Python使用正则表达式暴力爬取豆瓣电影是一种比较直接且有效的方法。但是需要注意的是遵守豆瓣网站的爬虫规则,并且避免频繁请求造成对网站的负载过大。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值