爬虫分享(四):多线程爬取小说

本文分享了使用Python进行多线程爬取小说《元尊》的方法,解析网页获取每章小说的URL,并通过添加前缀完成完整地址。接着,通过保存每章小说到本地,利用多线程加速爬取过程。
摘要由CSDN通过智能技术生成

爬虫分享(四):多线程爬取小说

在这里插入图片描述


解析网页获取每章小说地址

这次要爬取一本名为《元尊》的小说

url = ‘http://www.ishisetianxia.com/chaojishenxiang/’

进入网页打开开发者工具

在这里插入图片描述

可以发现每章地址在a标签的href里,但是这个地址只有一部分,我们还需要人为把前部分添加上,代码如下:

import requests
from lxml import etree

url = 'http://www.ishisetianxia.com/chaojishenxiang/'
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
               'Connection': 'close'}
r = requests.get(url,headers=headers)
r.encoding = r.apparent_coding
html = etree.HTML(r.text)
urls = html.xpath('/html/body/div[3]/div[3]/dl/dd/a/@href')
for url in urls:
	n_url = 'http://www.ishisetianxia.com/' + url

这样,我们就获取到了每章小说的地址

保存每章小说本地

随便打开一章,打开开发者工具,就可以轻松定位标题和文本。

在这里插入图片描述

在这里插入图片描述
再加入多线程,我们便能够以较快速度爬取小说,完整代码如下:

# -*- ecoding: utf-8 -*-
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值