Python_协程详解

该博客介绍了如何利用Gevent库在Python中实现协程爬虫,以高效处理IO密集型任务。通过创建队列和工作线程,配合gevent的并发机制,实现对多个URL的并行抓取。尽管协程在CPU密集型任务上效率不高,但结合多进程和多线程,可以充分利用CPU资源。示例代码展示了如何启动和管理协程进行网页抓取。
摘要由CSDN通过智能技术生成

协程可以很完美的处理IO密集型的问题,但是处理CPU密集型并不是他的长处。要充分发挥CPU的性能,可以结合多进程+多线程的方式。Python并没有提供协程的相关模块和包,需要手动下载:

pip install gevent
  • 代码如下:
from gevent import monkey
monkey.patch_all()
import gevent
from gevent.queue import Queue
import requests

urls = ["URL1","URL2","URL3","URL4","URL5","URL6","URL7","URL8","URL9","URL10"] # 可自行修改URL

work = Queue() # 创建队列,队列的特点是先进先出
for data_url in urls:
    work.put_nowait(data_url)

def get_each_url_all_page(data_url):
	"""爬虫主程序"""
	result = requests.get(data_url)
    html = result.text
    # 省略部分爬虫内容
    
def crawler():
    while not work.empty():
        data_url = work.get_nowait()
        get_each_url_all_page(data_url)

def main():
	tasks_list = []
	for x in range(10): # 可以设置开多少个协程,这里以10为例。
	    task = gevent.spawn(crawler)
	    tasks_list.append(task)
	gevent.joinall(tasks_list)

if __name__ == '__main__':
	main()

更多用法详见教程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值