使用 requests+lxml 库的 Python 爬虫实例（以爬取网页连载小说《撒野》为例）

最新推荐文章于 2022-09-07 13:56:07 发布

QMango

最新推荐文章于 2022-09-07 13:56:07 发布

阅读量3.8k

点赞数 3

分类专栏： Python 文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013211009/article/details/109736390

版权

需求目标

介绍使用 requests 库与 lxml 库进行简单的网页数据爬取普通框架与爬虫实例，本文以爬取网页连载小说《撒野》为例~

当然有很多小说基本都能找到现成的 .txt 或者 .mobi 文件，不过有些又是注册登录，又是关注公众号啥的，我干脆写几行代码自己爬下来，之后有需要略微改下网页链接就行，一劳永逸~哈哈哈哈

requests+lxml 爬虫框架

1、一般通过 requests 库的 get(url, headers = header) 方法获取 html 页面，可以根据状态码判断是否请求成功（我一般自己爬点需要的东西就行了，所以没有判断）；

2、通过 lxml 库对请求的到的数据进行 XPath 解析，获取想要的数据内容；

3、对爬到的数据进行后续处理，我一般存到 .txt 文件或者数据库备用；

4、多个页面的话，for 循环重复过程搞定。

爬虫实例

此处以《撒野》为例进行爬取~

通过百度得到一个全文免费阅读网站，点进去是这样的，发现是一章一章的内容，很棒，选择第一章。

点进去就是正文啦，正文的最后一般都有"

最低0.47元/天解锁文章

关注

3
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
使用 requests+lxml 库的 Python 爬虫实例（以爬取网页连载小说《撒野》为例）

需求目标介绍使用 requests 库与 lxml 库进行简单的网页数据爬取普通框架与爬虫实例，本文以爬取网页连载小说《撒野》为例~当然有很多小说基本都能找到现成的 .txt 或者 .mobi 文件，不过有些又是注册登录，又是关注公众号啥的，我干脆写几行代码自己爬下来，之后有需要略微改下网页链接就行，一劳永逸~哈哈哈哈requests+lxml 爬虫框架1、一般通过 requests 库的 get(url, headers = header) 方法获取 html 页面，可以根据状态码判断是否
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。