基于requests-html的python爬虫简单易用

最新推荐文章于 2023-11-16 11:21:23 发布

如·月

最新推荐文章于 2023-11-16 11:21:23 发布

阅读量214

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42490315/article/details/105038153

版权

本文介绍了如何使用requests-html库进行Python爬虫实战，通过在小说网站爬取《斗罗大陆》全文并保存为txt文档，详细阐述了安装、基本使用和爬取思路。首先通过国内镜像安装requests_html，接着分析网页结构，利用css选择器提取文章链接和正文内容，最后实现逐章爬取。

摘要由CSDN通过智能技术生成

今天学习了关于requests-html爬虫的一些基础知识，并尝试着进行了一次实践：在一个小说网站上爬取斗罗大陆全文，并写入txt文档

requests_html安装

直接使用pip指令进行安装，从国外网站安装该库会很慢，可以使用国内镜像，这里我使用了清华大学的镜像

pip install requests-html -i https://pypi.tuna.tsinghua.edu.cn/simple

简单使用

我们来尝试爬取https://www.23txt.com/files/article/html/0/88
网站截图
使用快捷键 f12 观察网页结构

发现dl标签中嵌套了dd标签，而a标签中的相对链接就是文章地址，单机其中任一相对链接可跳转至正文，如下图

发现正文都在id="content"的标签中，因此我们可以使用css选择器来进行爬取。可以通过观察写出标签路径或者通过浏览器右击该标签选择copy selector，并利用find方法获取元素对象列表。
复制标签路径的具体操作方式可参考：https://blog.csdn.net/weixin_43790560/article/details/86617630

具体思路

首先通过爬取主页获取全部链接，并转换为绝对链接，然后分别从每个链接中爬取对应章节

from requests_html import HTMLSession
import os

session = HTMLSession()
url =

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。