【Python 多线程vs协程】爬取西游记

本文通过对比多线程和协程两种方式,爬取西游记篇章内容,探讨两者在耗时和资源消耗上的差异。在实验中,多线程爬取耗时较长,而协程虽然在此任务中耗时是多线程的2倍,但随着任务规模扩大,协程的效率优势将显现,且在处理同一资源时无需使用锁机制。
摘要由CSDN通过智能技术生成

为了有效的学习和加深对于线程和协程的认知,将同一个任务用不同思路呈现很有帮助。

这里通过使用多线程以及协程两种方式对西游记的篇章内容进行爬取,来对比一下两者的耗时差异。

首先,多线程爬取。

这里没有限制并发量,在主函数中的for循环遍历pair,因为有100个p,因此实际上开辟了100个线程。

import threading 
import requests 
import os 
import json

url = 'http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"4306063500"}'
path = 'xiyouji2'
os.mkdir(path)


def getCatalog(url):
	resp = requests.get(url=url)
	#print(resp.text)
	jsdata = resp.json()
	pair = []
	for data in jsdata['data']['novel']['items']:
		title = data['title']
		cid = data['cid']
		pair.append((cid,title))
	return pair

def download(p):
	cid = p[0]
	title = p[1]

	data = {
		"book_id":"4306063500",
		"cid":f"4306063500|{cid}",
		"need_bookinfo":1
	}

	data = json.dumps(data)
	url = f&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值