Python爬虫——使用正则表达式爬取一本喜欢的小说

本文介绍了一个使用Python爬虫和正则表达式爬取《三国演义》小说的案例。首先,确定信息来源为努努书坊,并列出爬取的目标内容——各章节的链接和内容。接着,通过查看网页源代码,利用正则表达式匹配章节链接(r'<td( width="50%")?><a href="(.+.html)">(.+)</a>')和章节内容(r'<p>(.+)</p>')。最后,展示爬取结果,成功获取小说全部章节的数据。
摘要由CSDN通过智能技术生成

使用正则表达式爬取一本喜欢的小说

这个爬虫的案例是对正则表达式的运用,通过这个案例,我们可以对正则表达式有更深入的了解。

1. 信息来源:

努努书坊。爬取的小说:三国演义。链接为:https://www.kanunu8.com/files/old/2011/2447.html

2. 解析需要爬取的信息:

进入主页,我们可以看到如上图所示的信息,我们需要爬取的就是上图中的所有内容。即每个章节中的内容。这是一个两层爬虫,即我们首先要得到每个章节的链接,再通过每个章节的链接得到每个章节的信息。

我们在主页中点击右键——>查看网页源代码——>找到对应的章节的信息——>如图所示——>获取出对应的链接信息和标题

我们对上图所示的信息进行分析,可以发现:(匹配就得多试验,每个人的匹配方式可能不同,多尝试)

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值