作为一个国产动漫迷,前几天的斗罗,实在太震撼了
吞噬星空作为后来者,也不赖。那就让我们来爬取他的小说吧!
前期准备
使用Python requests发送请求,xpath解析数据
所以没有安装以上两个模块的小伙伴,安装一下咯:
pip install requests
pip install lxml
踩点小说网站
找到一个可以免费看吞噬星空的网站
https://www.biqumo.com/8_8497
F12 研究一下网页源码,如下图所示:dd标签就是各章节的目录及链接。
进入章节详情页,分别找到章节标题和内容的源码位置
xpath定位方法捷径
xpath定位标签,偷懒的可以直接在浏览器copy
不过这个方法并不适用所有,xpath定位的方法还是需要学习一下的。
编码爬取
为了效率,采取线程池异步爬取,不了解线程池的可以看之前的文章,有详细讲解。
导入需要的模块
import requests
from lxml import etree
import os
from multiprocessing.dummy import Pool
持久化存储的文件夹
检测文件夹是否存在,不存在就创建
# 检测文件夹是否存在
if not os.path.exists('./数据解析/吞噬星空'):
os.mkdir('./数据解析/吞噬星空')
请求获取各章节详情页的url
# UA伪装
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
url