多线程学习遇到问题（二）资源抢夺

最新推荐文章于 2023-07-04 22:40:48 发布

靠谱的人

最新推荐文章于 2023-07-04 22:40:48 发布

阅读量679

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_43085185/article/details/104451784

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

解决多线程资源争夺的方法很多，队列是最好的方法之一，下面的例子很好的演示了队列在多线程中的应用，使用的生产者消费者模型，有时间写成面向对象的方式。
互斥锁等也可以解决此类情况，但效率没有队列高。、
爬完50页，单线程需要140秒，5个线程需要27秒

import requests
from lxml import etree
from urllib import request
from queue import Queue
import threading
import time
import random

# 存储页面url的队列 page_q 和 存储图片url的队列 img_q
page_q = Queue(100)
img_q = Queue(1000)
n = 1


def parse_page():
    header = {
        'User - Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) '
                        'Chrome / 80.0.3987.106Safari / 537.36',
        'Referer': 'https: // www.buxiuse.com /?cid = 3 & page = 8',
        'Sec - Fetch - Dest': 'script'
    }
    # 如果page_q队列里还有内容，那么一直循环，将页面的img地址取出来存入列表
    while True:
        if page_q.empty():
            print('page 空的')
            print('img_q 长度：{}'.format(img_q.qsize()))
            break
        # 取出页面url，并解析页面内容
        url = page_q.get()
        res = requests.get(url, headers=header)
        # 打印反馈代码，判断是否请求成功，调试时候很有用
        print(res)
        html = etree.HTML(res.text)
        imgs = html.xpath("//img[@class='height_min']")
        for img in imgs:
            # html.xpath返回的是一个迭代器，要用get方法获取内容
            src = img.get('src')
            # 将img的url地址存入队列
            img_q.put(src)
        # 强制休眠随机事件，防止反爬
        time.sleep(random.random())


def save_img():
    # 全局变量，查看下载数目
    global n
    while True:
        # 这里很重要，判断两个队列都空的时候，不继续下载图片
        # 这里如果只判断img_q的话，会造成此方法不起作用，因为刚开始img_q就是空的
        if img_q.empty() & page_q.empty():
            # 调试用
            print('img空了')
            break
        img_url = img_q.get()
        # 存在 当前目录的 图片 文件夹下，并切片url获得图片名，防止重复
        name = '图片/' + img_url[32:]
        # urllib.request 下载很方便，省了requests.get和 with open
        request.urlretrieve(img_url, name)
        print('{}下载成功！'.format(n))
        n += 1


def main():
    t_list = []
    start = time.time()
    url = 'https://www.buxiuse.com/?cid=3&page={}'
    # 将50页的url放入队列 page_q
    for i in range(1, 51):
        page_q.put(url.format(i))
    # 这里解释下为什么只开两个线程，多次测试以后，此处线程开多了会被反爬，status_code为503
    for i in range(2):
        t = threading.Thread(target=parse_page)
        t_list.append(t)
        t.start()
    # 开5个线程，爬图
    for i in range(5):
        t1 = threading.Thread(target=save_img)
        t_list.append(t1)
        t1.start()
    # 所有线程设置阻塞
    for t in t_list:
        t.join()
    end = time.time()
    print(end - start)


if __name__ == '__main__':
    main()

靠谱的人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多线程学习遇到问题（二）资源抢夺

解决多线程资源争夺的方法很多，队列是最好的方法之一，下面的例子很好的演示了队列在多线程中的应用，使用的生产者消费者模型，有时间写成面向对象的方式。互斥锁等也可以解决此类情况，但效率没有队列高。import requestsfrom lxml import etreefrom urllib import requestfrom queue import Queueimport threa...
复制链接

扫一扫