使用 requests+lxml 库的 Python 爬虫实例(以爬取网页连载小说《撒野》为例)

需求目标

介绍使用 requests 库与 lxml 库进行简单的网页数据爬取普通框架与爬虫实例,本文以爬取网页连载小说《撒野》为例~

当然有很多小说基本都能找到现成的 .txt 或者 .mobi 文件,不过有些又是注册登录,又是关注公众号啥的,我干脆写几行代码自己爬下来,之后有需要略微改下网页链接就行,一劳永逸~哈哈哈哈


requests+lxml 爬虫框架

1、一般通过 requests 库的 get(url, headers = header) 方法获取 html 页面,可以根据状态码判断是否请求成功(我一般自己爬点需要的东西就行了,所以没有判断);

2、通过 lxml 库对请求的到的数据进行 XPath 解析,获取想要的数据内容;

3、对爬到的数据进行后续处理,我一般存到 .txt 文件或者数据库备用;

4、多个页面的话,for 循环重复过程搞定。


爬虫实例

此处以《撒野》为例进行爬取~

通过百度得到一个全文免费阅读网站,点进去是这样的,发现是一章一章的内容,很棒,选择第一章。

点进去就是正文啦,正文的最后一般都有"

  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值