基于requests-html的python爬虫简单易用

本文介绍了如何使用requests-html库进行Python爬虫实战,通过在小说网站爬取《斗罗大陆》全文并保存为txt文档,详细阐述了安装、基本使用和爬取思路。首先通过国内镜像安装requests_html,接着分析网页结构,利用css选择器提取文章链接和正文内容,最后实现逐章爬取。
摘要由CSDN通过智能技术生成

今天学习了关于requests-html爬虫的一些基础知识,并尝试着进行了一次实践:在一个小说网站上爬取斗罗大陆全文,并写入txt文档

requests_html安装

直接使用pip指令进行安装,从国外网站安装该库会很慢,可以使用国内镜像,这里我使用了清华大学的镜像

pip install requests-html -i https://pypi.tuna.tsinghua.edu.cn/simple

简单使用

我们来尝试爬取https://www.23txt.com/files/article/html/0/88
网站截图
使用快捷键 f12 观察网页结构
结构
发现dl标签中嵌套了dd标签,而a标签中的相对链接就是文章地址,单机其中任一相对链接可跳转至正文,如下图
正文
发现正文都在id="content"的标签中,因此我们可以使用css选择器来进行爬取。可以通过观察写出标签路径或者通过浏览器右击该标签选择copy selector,并利用find方法获取元素对象列表。
复制标签路径的具体操作方式可参考:https://blog.csdn.net/weixin_43790560/article/details/86617630

具体思路

首先通过爬取主页获取全部链接,并转换为绝对链接,然后分别从每个链接中爬取对应章节

from requests_html import HTMLSession
import os

session = HTMLSession()
url = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值