python 爬虫线程池的应用。

最新推荐文章于 2020-08-03 16:40:13 发布

后青春诗ing

最新推荐文章于 2020-08-03 16:40:13 发布

阅读量479

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_42812527/article/details/81638998

版权

python 专栏收录该内容

37 篇文章 2 订阅

订阅专栏

想必搞爬虫的都知道，有时候需要爬取的网站量比较大，像大众点评或者一些大的电商网站，我们爬取大量的网站有时候速度也是必须的，此时笔者在网上看到很多加线程池来提高速度的方法，都没有添加到实际的爬虫例子，仅仅是比较一下添加线程池和没有添加的时候函数的调用的速度。这里笔者分享一下实际运用到爬虫代码来提高速度的方法。

环境：python2.7
因为作者这里是用的实际的工作代码，牵涉到时间的循环，这里也分享一下时间循环的方法直接上代码：

from dateutil.rrule import rrule, DAILY

def _time_parse(self, t):
    return time_parse('%s' % t)

def _set_st(self, st):
    """
    转化为日期的格式
    :param st: 开始的时间
    :return: True or False
    """
    self.st = self._time_parse(st).date()

def _set_et(self, et):
    """
    转化为日期的格式
    :param et: 结束的时间
    :return: True or False
    """
    self.et = self._time_parse(et).date()

以上方法直接调用即可返回自己想要的时间格式。在这里继续添加线程池，代码如下：

    def use_threadpool(self):
        task_pool = threadpool.ThreadPool(5)   # 准备5个线程池
        dr = rrule(freq=DAILY, dtstart=self.st, until=self.et)
        requests = threadpool.makeRequests(self.fache, dr)
        for req in requests:
            task_pool.putRequest(req)
        task_pool.wait()

以上是几个步骤的分布，在这里笔者分享一下自己代码的结构图如下：
这里写图片描述
这里是笔者的项目的结构，在这里首先分享Mythod文件的代码：

# coding=utf-8

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

import threadpool
from dateutil.rrule import rrule, DAILY
from dateutil.parser import parse as time_parse


class Mythod:

    def __init__(self, st, et):
        self._set_st(st)
        self._set_et(et)

    def _time_parse(self, t):
        return time_parse('%s' % t)

    def _set_st(self, st):
        """
        转化为日期的格式
        :param st: 开始的时间
        :return: True or False
        """
        self.st = self._time_parse(st).date()

    def _set_et(self, et):
        """
        转化为日期的格式
        :param et: 结束的时间
        :return: True or False
        """
        self.et = self._time_parse(et).date()

    def use_threadpool(self):
        task_pool = threadpool.ThreadPool(5)   # 准备5个线程池
        dr = rrule(freq=DAILY, dtstart=self.st, until=self.et)
        requests = threadpool.makeRequests(self.fache, dr)  // 建议
        for req in requests:  // 每个方法点进去看源码进行理解。
            task_pool.putRequest(req)
        task_pool.wait()

    def fache(self): // 自己的方法是实现爬虫的方法在gps175文件中，这里先进行
        pass        //  声明和调用，在下个文件需要重写此方法

自己爬虫的代码：

# coding=utf-8

import requests
import time
from DaiQian_Gps.Mythod import Mythod

import sys
reload(sys)

sys.setdefaultencoding("utf-8")

class CarInfo(Mythod):
    def fache(self, d):
        d = d.date()
        爬虫的代码，这就需要你们自己写自己的爬虫了。
if __name__ == '__main__':
    car = CarInfo('2018-08-01', '2018-08-13')
    car.use_threadpool()

好了，到这里笔者就分享结束了，当然可能不适用你们的代码，你们也可以从网上看一些线程池的开启，添加到自己的爬虫中即可。在这里笔者就不分享连接了，因为网上太多了。

后青春诗ing

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python __爬虫__线程池的应用。

想必搞爬虫的都知道，有时候需要爬取的网站量比较大，像大众点评或者一些大的电商网站，我们爬取大量的网站有时候速度也是必须的，此时笔者在网上看到很多加线程池来提高速度的方法，都没有添加到实际的爬虫例子，仅仅是比较一下添加线程池和没有添加的时候函数的调用的速度。这里笔者分享一下实际运用到爬虫代码来提高速度的方法。环境：python2.7 因为作者这里是用的实际的工作代码，牵涉到时间的循环，这里也分...
复制链接

扫一扫