Python爬虫——使用正则表达式爬取一本喜欢的小说

最新推荐文章于 2024-04-26 01:45:18 发布

橘子女侠

最新推荐文章于 2024-04-26 01:45:18 发布

阅读量3.8k

点赞数 7

分类专栏： python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38684504/article/details/86694247

版权

本文介绍了一个使用Python爬虫和正则表达式爬取《三国演义》小说的案例。首先，确定信息来源为努努书坊，并列出爬取的目标内容——各章节的链接和内容。接着，通过查看网页源代码，利用正则表达式匹配章节链接（r'<td( width="50%")?><a href="(.+.html)">(.+)</a>'）和章节内容（r'<p>(.+)</p>'）。最后，展示爬取结果，成功获取小说全部章节的数据。

摘要由CSDN通过智能技术生成

使用正则表达式爬取一本喜欢的小说

这个爬虫的案例是对正则表达式的运用，通过这个案例，我们可以对正则表达式有更深入的了解。

1. 信息来源：

努努书坊。爬取的小说：三国演义。链接为：https://www.kanunu8.com/files/old/2011/2447.html

2. 解析需要爬取的信息：

进入主页，我们可以看到如上图所示的信息，我们需要爬取的就是上图中的所有内容。即每个章节中的内容。这是一个两层爬虫，即我们首先要得到每个章节的链接，再通过每个章节的链接得到每个章节的信息。

我们在主页中点击右键——>查看网页源代码——>找到对应的章节的信息——>如图所示——>获取出对应的链接信息和标题

我们对上图所示的信息进行分析，可以发现：（匹配就得多试验，每个人的匹配方式可能不同，多尝试）

最低0.47元/天解锁文章

关注

7
点赞
踩
30

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。