多协程爬虫

本文介绍了如何使用Python的gevent库进行协程爬虫,利用单线程的协程实现高并发,同时讨论了协程的优缺点,如低资源消耗、简化编程流程和对长时间IO操作的限制。
摘要由CSDN通过智能技术生成

Python爬虫还可以使用协程,协程是一种轻量级线程,使用协程有众多的好处:

  1. 协程像一种在程序级别模拟系统的进程,由于是单线程,并且少了上下文切换,因此相对来说系统消耗很少,而且网上的各种测试也表明了协程拥有惊人的速度。
  2. 协程的方便切换控制流,这样就简化了编程的流程,它还可以保留上一次的调用的状态,每次过程重入时,就相当于进入了上一次的状态。
  3. 协程的高扩展性和高并发性,一个CPU支持上万个协程都不是问题,因此很适合高并发性。

当然协程也有缺点:

 1.协程的本质是一个单线程,不可以同时使用单个CPU的多核,需要进程才可以配合多个CPU上。

2.有长时间阻塞的IO操作时,不要协程,因为可能阻塞整个程序。

我们开始的时候要使用pip安装:

pip install gevent

 

我们现在就可以使用gevent进行爬虫:

import gevent
from gevent,queue import Queue, Emptyimport
import time
import requests

from gevent import monkey#把下面有可能有 IO 操作的单独做上标记
monkey.patch_all()#将I0转为异步执行的函数
link_list =[]
with open('alexa.txt','r')as file:
    file_list = file.readlines()
    for eachone in file_list:
        link = eachone.split('\t')[1]
        link = link.replace('\n','')
        link_list.append(link)
    start = time.time()
    def crawler(index):
        Process_id = 'Process_+ str(index)'
        while not workQueue.empty():
            url = workQueue.get(timeout=2)
        try:
            r = requests.get(url, timeout=20)
            print(Process_id, workQueue.qsize(), r.status_code, url)
        except Exception as e:
            print(Process_id, workQueue.qsize(), url, 'Error:',e)
    
    def boss():
            for url in link_list:
                workQueue.put_nowait(url)

if __name__ == '__main__':
    workQueue = Queue(1000)
    gevent.spawn(boss).join()
    jobs = []
    for i in range(10):
        jobs.append(gevent.spawn(crawler, i))
    gevent.joinall(jobs)
    end = time.time()
    print('gevent + Queue 多协程爬虫的总时间为:',end - start)
    print(' Ended!')

 

上面的代码,我们首先使用了:

form gevent import monkey

monkey.patch_all

 这样可以实现爬虫的并发能力,如果没有这两句,整个获取就会变为依次抓取。gevent库中的monkey能把IO操作的单独做上标记,将IO变成异步执行的函数。

我们还是可以用Queue创建队列,但在这里使用:

gevent.spwan(boss).join()

将队列加入的内容整合到gevent里面:

     for i in range(10):
        jobs.append(gevent.spawn(crawler, i))
    gevent.joinall(jobs)

以下是多协程爬虫的具体步骤和示例代码: 步骤: 1. 初始化爬虫参数,包括目标网站URL、请求头、代理等信息。 2. 创建一个事件循环对象。 3. 定义一个异步函数,用于发送HTTP请求和解析响应。 4. 在异步函数中,使用aiohttp库发送异步HTTP请求,并获取响应。 5. 在异步函数中,解析响应并提取所需的信息。 6. 在异步函数中,将提取到的信息存储到本地或数据库中。 7. 在异步函数中,如果存在新的URL,将其加入任务队列。 8. 创建一个任务列表,用于存放所有的异步任务。 9. 将每个异步任务添加到任务列表中。 10. 在事件循环中运行所有的异步任务。 11. 当所有任务完成后,关闭事件循环。 示例代码: ```python import asyncio import aiohttp # 初始化爬虫参数 target_url = 'https://example.com' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'} # 其他参数... # 异步函数:发送HTTP请求和解析响应 async def fetch(session, url): async with session.get(url, headers=headers) as response: return await response.text() # 异步函数:解析响应和提取信息 async def parse(html): # 解析响应并提取信息 # ... # 存储信息到本地或数据库 # ... # 如果有新的URL,加入任务队列 # ... # 主函数 async def main(): async with aiohttp.ClientSession() as session: # 创建任务列表 tasks = [] # 添加异步任务到任务列表 tasks.append(asyncio.create_task(fetch(session, target_url))) # 执行并等待所有任务完成 responses = await asyncio.gather(*tasks) # 处理每个响应 for response in responses: await parse(response) # 创建事件循环并运行主函数 loop = asyncio.get_event_loop() loop.run_until_complete(main()) loop.close() ``` 以上是一个简单的多协程爬虫的示例,你可以根据实际需求进行修改和扩展。记得在运行代码之前安装相应的依赖库,如aiohttp。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

eqwaak0

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值