今天学习了关于requests-html爬虫的一些基础知识,并尝试着进行了一次实践:在一个小说网站上爬取斗罗大陆全文,并写入txt文档
requests_html安装
直接使用pip指令进行安装,从国外网站安装该库会很慢,可以使用国内镜像,这里我使用了清华大学的镜像
pip install requests-html -i https://pypi.tuna.tsinghua.edu.cn/simple
简单使用
我们来尝试爬取https://www.23txt.com/files/article/html/0/88
使用快捷键 f12 观察网页结构
发现dl标签中嵌套了dd标签,而a标签中的相对链接就是文章地址,单机其中任一相对链接可跳转至正文,如下图
发现正文都在id="content"的标签中,因此我们可以使用css选择器来进行爬取。可以通过观察写出标签路径或者通过浏览器右击该标签选择copy selector,并利用find方法获取元素对象列表。
复制标签路径的具体操作方式可参考:https://blog.csdn.net/weixin_43790560/article/details/86617630
具体思路
首先通过爬取主页获取全部链接,并转换为绝对链接,然后分别从每个链接中爬取对应章节
from requests_html import HTMLSession
import os
session = HTMLSession()
url =