python网络爬虫（五）:并发抓取

最新推荐文章于 2024-08-07 08:51:51 发布

Easy_to_python

最新推荐文章于 2024-08-07 08:51:51 发布

阅读量1.3w

点赞数 3

分类专栏： python爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/hjhmpl123/article/details/53378068

版权

本文探讨了在单个爬虫情况下提高抓取效率的并发技术，包括顺序抓取、多线程、gevent和tornado的coroutine。通过测试，发现多线程和gevent的并发性能优于顺序抓取，而tornado的coroutine在某些情况下可能更优，但实际效果需要更多url测试验证。

摘要由CSDN通过智能技术生成

在进行单个爬虫抓取的时候，我们不可能按照一次抓取一个url的方式进行网页抓取，这样效率低，也浪费了cpu的资源。目前python上面进行并发抓取的实现方式主要有以下几种：进程，线程，协程。进程不在的讨论范围之内，一般来说，进程是用来开启多个spider，比如我们开启了4进程，同时派发4个spider进行网络抓取，每个spider同时抓取4个url。

所以，我们今天讨论的是，在单个爬虫的情况下，尽可能的在同一个时间并发抓取，并且抓取的效率要高。

一.顺序抓取
顺序抓取是最最常见的抓取方式，一般初学爬虫的朋友就是利用这种方式，下面是一个测试代码，顺序抓取8个url，我们可以来测试一下抓取完成需要多少时间：

HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9',
   'Accept-Language': 'zh-CN,zh;q=0.8',
   'Accept-Encoding': 'gzip, deflate',}

URLS = ['http://www.cnblogs.com/moodlxs/p/3248890.html', 
        'https://www.zhihu.com/topic/19804387/newest',
        'http://blog.csdn.net/yueguanghaidao/article/details/24281751',
        'https://my.oschina.net/visualgui823/blog/36987',
        'http://blog.chinaunix.net/uid-9162199-id-4738168.html',
        'http://www.tuicool.com/articles/u67Bz26',
        'http://rfyiamcool.blog.51cto.com/1030776/1538367/',
        'http://itindex.net/detail/26512-flask-tornado-gevent']

#url为随机获取的一批url

def func():
    """
    顺序抓取
    """
    import requests
    import time
    urls = URLS
    headers = HEADERS
    headers['user-agent'] = "Mozilla/5.0+(Windows+NT+6.2;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/45.0.2454.101+Safari/537.36"
    print(