Reptile_07 多协程进行爬虫

一、gevent库

安装方法:
window电脑:在终端输入命令:pip install gevent
mac电脑:在终端输入命令:pip3 install gevent

创建任务与执行执行:

gevent.spawn()
#创建任务

gevent.joinall()
#执行任务

简单的多协程代码:

from gevent import monkey
import gevent,requests
    
monkey.patch_all()
#把程序变成协作式运行,固定写法
    
url_list = ['url','ur2','ur3','ur4','ur5']
#需要请求的网址列表

def crawler(url):
	r = requests.get(url)
	#执行requests.get(url)任务

tasks_list = [ ]

for url in url_list:
	task = gevent.spawn(crawler,url)
	#用gevent.spawn()函数创建任务(参数需为要调用的函数名及该函数的参数)
	
	tasks_list.append(task)
	#将task增加到任务列表中
		
gevent.joinall(tasks_list)
#启动执行tasks_list中的所有任务

二、queue模块

当需要创建大量任务时,就得使用queue模块
queue模块功能:

Queue()
#创建队列

put_nowait(url)
#存储数据

get_nowait()
#读取数据

empty()
#判断队列是否为空

full()
#判断队列是否已满

qsize()
#判断队列剩余数量

简单代码:

from gevent import monkey
import gevent,requests
from gevent.queue import Queue
monkey.patch_all()

url_list = ['url','ur2','ur3','ur4','ur5','ur6']
#需要请求的网址列表

work = Queue()
#创建队列对象,并赋值给work

for url in url_list:
    work.put_nowait(url)
	#用put_nowait()函数把网址都放进队列里

def crawler():
    while not work.empty():
	#当队列不是空的时候,就执行下面的程序
	
        url = work.get_nowait()
		#用get_nowait()函数把队列里的网址都取出
		
        r = requests.get(url)
		print(work.qsize())
		#打印队列里还剩多少数量

tasks_list  = [ ]
#创建空的任务列表

for x in range(3):
#相当于创建了3个爬虫

    task = gevent.spawn(crawler)
	#用gevent.spawn()函数创建执行crawler()函数的任务
	
    tasks_list.append(task)
	#往任务列表添加任务
	
gevent.joinall(tasks_list)

以上执行代码异步爬取网址:
3个爬虫并发执行
第1个爬虫网址为:url,ur4
第2个爬虫网址为:ur2,ur5
第3个爬虫网址为:ur3,url6

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

法海爱捉虫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值