爬虫分享(四)：多线程爬取小说

最新推荐文章于 2024-07-10 18:18:26 发布

沈富贵

最新推荐文章于 2024-07-10 18:18:26 发布

阅读量1.2k

点赞数 2

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/qq_30833231/article/details/104866225

版权

本文分享了使用Python进行多线程爬取小说《元尊》的方法，解析网页获取每章小说的URL，并通过添加前缀完成完整地址。接着，通过保存每章小说到本地，利用多线程加速爬取过程。

摘要由CSDN通过智能技术生成

爬虫分享(四)：多线程爬取小说

在这里插入图片描述

解析网页获取每章小说地址

这次要爬取一本名为《元尊》的小说

url = ‘http://www.ishisetianxia.com/chaojishenxiang/’

进入网页打开开发者工具

在这里插入图片描述

可以发现每章地址在a标签的href里，但是这个地址只有一部分，我们还需要人为把前部分添加上，代码如下：

import requests
from lxml import etree

url = 'http://www.ishisetianxia.com/chaojishenxiang/'
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
               'Connection': 'close'}
r = requests.get(url,headers=headers)
r.encoding = r.apparent_coding
html = etree.HTML(r.text)
urls = html.xpath('/html/body/div[3]/div[3]/dl/dd/a/@href')
for url in urls:
	n_url = 'http://www.ishisetianxia.com/' + url

这样，我们就获取到了每章小说的地址

保存每章小说本地

随便打开一章，打开开发者工具，就可以轻松定位标题和文本。

在这里插入图片描述

在这里插入图片描述
再加入多线程，我们便能够以较快速度爬取小说，完整代码如下：

# -*- ecoding: utf-8 -*-

最低0.47元/天解锁文章

沈富贵

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
爬虫分享(四)：多线程爬取小说

爬虫分享(四)：多线程爬取小说解析网页获取每章小说地址这次要爬取一本名为《元尊》的小说url = ‘http://www.ishisetianxia.com/chaojishenxiang/’进入网页打开开发者工具可以发现每章地址在a标签的href里，但是这个地址只有一部分，我们还需要人为把前部分添加上，代码如下：import requestsfrom lxml import ...
复制链接

扫一扫