Python多线程爬虫之Queue

最新推荐文章于 2024-05-06 14:59:41 发布

昵称很烧脑

最新推荐文章于 2024-05-06 14:59:41 发布

阅读量917

点赞数 1

分类专栏： Python 爬虫文章标签：多线程 python queue thread

本文链接：https://blog.csdn.net/qq_43735106/article/details/106734397

版权

Python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

爬虫

5 篇文章 0 订阅

订阅专栏

Python多线程爬虫

实现多线程爬虫

为什么要爬虫使用多线程?
为了提高抓取数据效率
有些网站对访问速度有限制, 这样网站可以可以开启多个线程, 每一个线程使用一个代理,去提取页面的一部分内容

1、多线程的方法使用
在python3中，主线程主进程结束，子线程，子进程不会结束为了能够让主线程回收子线程，可以把子线程设置为守护线程,即该线程不重要，主线程结束，子线程结束

t1 = threading.Thread(targe=func,args=(,))
t1.setDaemon(True)
t1.start() #此时线程才会启动

队列模块的使用

    from queue import Queue
    q = Queue(maxsize=100)
    item = {}
    q.put_nowait(item) #不等待直接放，队列满的时候会报错
    q.put(item) #放入数据，队列满的时候会等待
    q.get_nowait() #不等待直接取，队列空的时候会报错
    q.get() #取出数据，队列为空的时候会等待
    q.qsize() #获取队列中现存数据的个数 
    q.join() #队列中维持了一个计数，计数不为0时候让主线程阻塞等待，队列计数为0的时候才会继续往后执行
    q.task_done() 
    # put的时候计数+1，get不会-1，get需要和task_done 一起使用才会-1
    ```
# 3. 线程中使用队列，队列可用于线程间的数据通讯
from queue import Queue
import threading

q = Queue()
def add_to_queue():
    for i in range(0, 100):
        print("存入队列: {}".format(i))
        q.put(i)

def get_from_queue():
    # 但是在我们获取队列元素的时候, 我们并不知道队列中放了几个元素,
    # 这个时候我们就会使用while的死循环来获取,知道取完为止
    # for i in range(0, 100):
    while True:
        print("从队列中取出: {}".format(q.get()))
        q.task_done()

# 创建线程
t = threading.Thread(target=add_to_queue)
# 设置为守护线程
t.setDaemon(True)
# 启动线程
t.start()

t = threading.Thread(target=get_from_queue)
t.setDaemon(True)
t.start()

# 队列加入主线线程, 等待队列中任务完成为止
q.join()
'''
Queue.qsize() 返回队列的大小
Queue.empty() 如果队列为空，返回True,反之False
Queue.full() 如果队列满了，返回True,反之False，Queue.full 与 maxsize 大小对应
Queue.get([block[, timeout]])获取队列，timeout等待时间
Queue.get_nowait() 相当于Queue.get(False)，非阻塞方法
Queue.put(item) 写入队列，timeout等待时间
Queue.task_done() 在完成一项工作之后，Queue.task_done()函数向任务已经完成的队列发送一个信号。每个get()调用得到一个任务，接下来task_done()调用告诉队列该任务已经处理完毕。
Queue.join() 实际上意味着等到队列为空，再执行别的操作
'''

2、糗事百科实例
（1）、导入库

import requests
from threading import Thread
from lxml import etree
from queue import Queue

（2）、创建类，用来获取网页

class GetHTML(Thread):#继承Thread类
    def __init__(self, url_queue, html_queue):
        Thread.__init__(self)
        self.url_queue = url_queue
        self.html_queue = html_queue

    def run(self):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
        while self.url_queue.empty() == False:
            url = self.url_queue.get()
            response = requests.get(url, headers=headers)
            if response.status_code == 200:
                self.html_queue.put(response.text)

（3）、创建解析网页信息类

class ParserHTML(Thread):
    def __init__(self, html_queue):
        Thread.__init__(self)
        self.html_queue = html_queue

    def run(self):
        while self.html_queue.empty() == False:
            html = self.html_queue.get()
            e = etree.HTML(html)
            span_contents = e.xpath('//div[@class="content"]/span[1]')
            for span in span_contents:
                info = span.xpath('string(.)')
                print(info.strip())

（4）、主函数

if __name__ == "__main__":
    # 存储url的容器
    url_queue = Queue()
    # 存储网页的容器
    html_queue = Queue()
    start_url = 'https://www.qiushibaike.com/text/page/{}/'
    for i in range(1, 14):
        url = start_url.format(i)
        url_queue.put(url)
    crawl_list = []
    for i in range(3):
        crawl = GetHTML(url_queue, html_queue)
        crawl_list.append(crawl)
        crawl.start()
    for crawl in crawl_list:
        crawl.join()
    parser_list = []
    for i in range(3):
        parser = ParserHTML(html_queue)
        parser_list.append(parser)
        parser.start()
    for parser in parser_list:
        parser.join()

3、完整代码

import requests
from threading import Thread
from lxml import etree
from queue import Queue

# 获取网页类


class GetHTML(Thread):
    def __init__(self, url_queue, html_queue):
        Thread.__init__(self)
        self.url_queue = url_queue
        self.html_queue = html_queue

    def run(self):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
        while self.url_queue.empty() == False:
            url = self.url_queue.get()
            response = requests.get(url, headers=headers)
            if response.status_code == 200:
                self.html_queue.put(response.text)

# 创建解析网页，获取信息类


class ParserHTML(Thread):
    def __init__(self, html_queue):
        Thread.__init__(self)
        self.html_queue = html_queue

    def run(self):
        while self.html_queue.empty() == False:
            html = self.html_queue.get()
            e = etree.HTML(html)
            span_contents = e.xpath('//div[@class="content"]/span[1]')
            for span in span_contents:
                info = span.xpath('string(.)')
                print(info.strip())


if __name__ == "__main__":
    # 存储url的容器
    url_queue = Queue()
    # 存储网页的容器
    html_queue = Queue()
    start_url = 'https://www.qiushibaike.com/text/page/{}/'
    for i in range(1, 14):
        url = start_url.format(i)
        url_queue.put(url)
    crawl_list = []
    for i in range(3):
        crawl = GetHTML(url_queue, html_queue)
        crawl_list.append(crawl)
        crawl.start()
    for crawl in crawl_list:
        crawl.join()
    parser_list = []
    for i in range(3):
        parser = ParserHTML(html_queue)
        parser_list.append(parser)
        parser.start()
    for parser in parser_list:
        parser.join()

昵称很烧脑

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python多线程爬虫之Queue

Python多线程爬虫实现多线程爬虫为什么要爬虫使用多线程?为了提高抓取数据效率有些网站对访问速度有限制, 这样网站可以可以开启多个线程, 每一个线程使用一个代理,去提取页面的一部分内容1、多线程的方法使用在python3中，主线程主进程结束，子线程，子进程不会结束为了能够让主线程回收子线程，可以把子线程设置为守护线程,即该线程不重要，主线程结束，子线程结束t1 = threading.Thread(targe=func,args=(,))t1.setDaemon(True)t1.
复制链接

扫一扫