最近被吞噬星空动漫吸引,那就愉快的爬取一下小说看看吧!----Python爬虫

本文介绍了一位国产动漫爱好者如何使用Python爬虫爬取《吞噬星空》小说的过程。通过requests库发送请求,结合xpath解析HTML,利用线程池提高爬取效率,最终实现小说章节的高效抓取并持久化存储。
摘要由CSDN通过智能技术生成

作为一个国产动漫迷,前几天的斗罗,实在太震撼了
吞噬星空作为后来者,也不赖。那就让我们来爬取他的小说吧!

前期准备

使用Python requests发送请求,xpath解析数据

所以没有安装以上两个模块的小伙伴,安装一下咯:

pip install requests
pip install lxml

踩点小说网站

找到一个可以免费看吞噬星空的网站
https://www.biqumo.com/8_8497

F12 研究一下网页源码,如下图所示:dd标签就是各章节的目录及链接。
在这里插入图片描述
进入章节详情页,分别找到章节标题和内容的源码位置
在这里插入图片描述

xpath定位方法捷径

xpath定位标签,偷懒的可以直接在浏览器copy
在这里插入图片描述

不过这个方法并不适用所有,xpath定位的方法还是需要学习一下的。

编码爬取

为了效率,采取线程池异步爬取,不了解线程池的可以看之前的文章,有详细讲解。

导入需要的模块

import requests
from lxml import etree
import os
from multiprocessing.dummy import Pool

持久化存储的文件夹

检测文件夹是否存在,不存在就创建

    # 检测文件夹是否存在
    if not os.path.exists('./数据解析/吞噬星空'):
        os.mkdir('./数据解析/吞噬星空')

请求获取各章节详情页的url

    # UA伪装
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
    url 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值