多协程爬虫

最新推荐文章于 2024-09-25 15:24:27 发布

eqwaak0

最新推荐文章于 2024-09-25 15:24:27 发布

阅读量1.7k

点赞数 30

分类专栏：爬虫文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/eqwaak0/article/details/137521066

版权

爬虫专栏收录该内容

13 篇文章 34 订阅

订阅专栏

本文介绍了如何使用Python的gevent库进行协程爬虫，利用单线程的协程实现高并发，同时讨论了协程的优缺点，如低资源消耗、简化编程流程和对长时间IO操作的限制。

摘要由CSDN通过智能技术生成

Python爬虫还可以使用协程，协程是一种轻量级线程，使用协程有众多的好处：

协程像一种在程序级别模拟系统的进程，由于是单线程，并且少了上下文切换，因此相对来说系统消耗很少，而且网上的各种测试也表明了协程拥有惊人的速度。
协程的方便切换控制流，这样就简化了编程的流程，它还可以保留上一次的调用的状态，每次过程重入时，就相当于进入了上一次的状态。
协程的高扩展性和高并发性，一个CPU支持上万个协程都不是问题，因此很适合高并发性。

当然协程也有缺点：

1.协程的本质是一个单线程，不可以同时使用单个CPU的多核，需要进程才可以配合多个CPU上。

2.有长时间阻塞的IO操作时，不要协程，因为可能阻塞整个程序。

我们开始的时候要使用pip安装：

pip install gevent

我们现在就可以使用gevent进行爬虫：

import gevent
from gevent,queue import Queue, Emptyimport
import time
import requests

from gevent import monkey#把下面有可能有 IO 操作的单独做上标记
monkey.patch_all()#将I0转为异步执行的函数
link_list =[]
with open('alexa.txt','r')as file:
    file_list = file.readlines()
    for eachone in file_list:
        link = eachone.split('\t')[1]
        link = link.replace('\n','')
        link_list.append(link)
    start = time.time()
    def crawler(index):
        Process_id = 'Process_+ str(index)'
        while not workQueue.empty():
            url = workQueue.get(timeout=2)
        try:
            r = requests.get(url, timeout=20)
            print(Process_id, workQueue.qsize(), r.status_code, url)
        except Exception as e:
            print(Process_id, workQueue.qsize(), url, 'Error:',e)
    
    def boss():
            for url in link_list:
                workQueue.put_nowait(url)

if __name__ == '__main__':
    workQueue = Queue(1000)
    gevent.spawn(boss).join()
    jobs = []
    for i in range(10):
        jobs.append(gevent.spawn(crawler, i))
    gevent.joinall(jobs)
    end = time.time()
    print('gevent + Queue 多协程爬虫的总时间为:',end - start)
    print(' Ended!')