最近被吞噬星空动漫吸引，那就愉快的爬取一下小说看看吧！----Python爬虫

最新推荐文章于 2022-06-30 13:59:11 发布

sharp_wu

最新推荐文章于 2022-06-30 13:59:11 发布

阅读量682

点赞数

分类专栏： Python 文章标签：定位 python xpath html

本文链接：https://blog.csdn.net/qq_38232003/article/details/111590433

版权

本文介绍了一位国产动漫爱好者如何使用Python爬虫爬取《吞噬星空》小说的过程。通过requests库发送请求，结合xpath解析HTML，利用线程池提高爬取效率，最终实现小说章节的高效抓取并持久化存储。

摘要由CSDN通过智能技术生成

作为一个国产动漫迷，前几天的斗罗，实在太震撼了
吞噬星空作为后来者，也不赖。那就让我们来爬取他的小说吧！

前期准备

使用Python requests发送请求，xpath解析数据

所以没有安装以上两个模块的小伙伴，安装一下咯：

pip install requests
pip install lxml

踩点小说网站

找到一个可以免费看吞噬星空的网站
https://www.biqumo.com/8_8497

F12 研究一下网页源码，如下图所示：dd标签就是各章节的目录及链接。
在这里插入图片描述
进入章节详情页，分别找到章节标题和内容的源码位置

xpath定位方法捷径

xpath定位标签，偷懒的可以直接在浏览器copy
在这里插入图片描述

不过这个方法并不适用所有，xpath定位的方法还是需要学习一下的。

编码爬取

为了效率，采取线程池异步爬取，不了解线程池的可以看之前的文章，有详细讲解。

导入需要的模块

import requests
from lxml import etree
import os
from multiprocessing.dummy import Pool

持久化存储的文件夹

检测文件夹是否存在，不存在就创建

    # 检测文件夹是否存在
    if not os.path.exists('./数据解析/吞噬星空'):
        os.mkdir('./数据解析/吞噬星空')

请求获取各章节详情页的url

    # UA伪装
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
    url

最低0.47元/天解锁文章

sharp_wu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
最近被吞噬星空动漫吸引，那就愉快的爬取一下小说看看吧！----Python爬虫

作为一个国产动漫迷，前几天的斗罗，实在太震撼了吞噬星空作为后来者，也不赖。那就让我们来爬取他的小说吧！前期准备使用Python requests发送请求，xpath解析数据所以没有安装以上两个模块的小伙伴，安装一下咯：pip install requestspip install lxml踩点小说网站找到一个可以免费看吞噬星空的网站https://www.biqumo.com/8_8497F12 研究一下网页源码，如下图所示：dd标签就是各章节的目录及链接。进入章节详情页，分别找到
复制链接

扫一扫