【Python 多线程vs协程】爬取西游记

最新推荐文章于 2024-06-25 17:08:48 发布

fangqileo

最新推荐文章于 2024-06-25 17:08:48 发布

阅读量802

点赞数

文章标签： python 多线程爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fangqileo/article/details/121489684

版权

本文通过对比多线程和协程两种方式，爬取西游记篇章内容，探讨两者在耗时和资源消耗上的差异。在实验中，多线程爬取耗时较长，而协程虽然在此任务中耗时是多线程的2倍，但随着任务规模扩大，协程的效率优势将显现，且在处理同一资源时无需使用锁机制。

摘要由CSDN通过智能技术生成

为了有效的学习和加深对于线程和协程的认知，将同一个任务用不同思路呈现很有帮助。

这里通过使用多线程以及协程两种方式对西游记的篇章内容进行爬取，来对比一下两者的耗时差异。

首先，多线程爬取。

这里没有限制并发量，在主函数中的for循环遍历pair，因为有100个p，因此实际上开辟了100个线程。

import threading 
import requests 
import os 
import json

url = 'http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"4306063500"}'
path = 'xiyouji2'
os.mkdir(path)


def getCatalog(url):
	resp = requests.get(url=url)
	#print(resp.text)
	jsdata = resp.json()
	pair = []
	for data in jsdata['data']['novel']['items']:
		title = data['title']
		cid = data['cid']
		pair.append((cid,title))
	return pair

def download(p):
	cid = p[0]
	title = p[1]

	data = {
		"book_id":"4306063500",
		"cid":f"4306063500|{cid}",
		"need_bookinfo":1
	}

	data = json.dumps(data)
	url = f&

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

fangqileo CSDN认证博客专家 CSDN认证企业博客

码龄3年

22: 原创

53万+: 周排名

144万+: 总排名

1万+: 访问

: 等级

284: 积分

29: 粉丝

13: 获赞

8: 评论

54: 收藏

私信

关注

热门文章

分类专栏

tesserocr 1篇

最新评论

Mac M1 环境下安装tesserocr Python 3.9
夜幕.思年华: 为什么我报错 zsh: command not found: pip
【极简代码】Python Plotly Sunburst可视化全国Used Mercedes Benz
胡琵与锡笛: 您好！请问奔驰的相关数据集可以分享吗？我想自用测试代码功能，非常感谢
【Scrapy框架（一）】爬取豆瓣电影
m0_63876894: 为什么结果是这样的 2023-07-09 19:54:27 [scrapy.utils.log] INFO: Scrapy 2.9.0 started (bot: doubanmovie) 2023-07-09 19:54:27 [scrapy.utils.log] INFO: Versions: lxml 4.6.3.0, libxml2 2.9.10, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.1, Twisted 22.10.0, Python 3.8.8 (default, Apr 13 2021, 15:08:03) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 23.2.0 (OpenSSL 3.1.1 30 May 2023), cryptography 41.0.1, Platform Windows-10-10.0.19041-SP0 Usage ===== scrapy crawl [options] <spider> Run a spider Optional Arguments ================== -h, --help show this help message and exit -a NAME=VALUE set spider argument (may be repeated) -o FILE, --output FILE append scraped items to the end of FILE (use - for stdout), to define format set a colon at the end of the output URI (i.e. -o FILE:FORMAT) -O FILE, --overwrite-output FILE dump scraped items into FILE, overwriting any existing file, to define format set a colon at
Mac M1 环境下安装tesserocr Python 3.9
ll3o3: 牛逼终于解决！
Mac M1 环境下安装tesserocr Python 3.9
weixin_51492385: 太感谢了，找了一天终于找到了真正的解决办法

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。