多线程学习 遇到问题(二) 资源抢夺

解决多线程资源争夺的方法很多,队列是最好的方法之一,下面的例子很好的演示了队列在多线程中的应用,使用的生产者消费者模型,有时间写成面向对象的方式。
互斥锁等也可以解决此类情况,但效率没有队列高。、
爬完50页,单线程需要140秒,5个线程需要27秒

import requests
from lxml import etree
from urllib import request
from queue import Queue
import threading
import time
import random

# 存储页面url的队列 page_q 和 存储图片url的队列 img_q
page_q = Queue(100)
img_q = Queue(1000)
n = 1


def parse_page():
    header = {
        'User - Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) '
                        'Chrome / 80.0.3987.106Safari / 537.36',
        'Referer': 'https: // www.buxiuse.com /?cid = 3 & page = 8',
        'Sec - Fetch - Dest': 'script'
    }
    # 如果page_q队列里还有内容,那么一直循环,将页面的img地址取出来存入列表
    while True:
        if page_q.empty():
            print('page 空的')
            print('img_q 长度:{}'.format(img_q.qsize()))
            break
        # 取出页面url,并解析页面内容
        url = page_q.get()
        res = requests.get(url, headers=header)
        # 打印反馈代码,判断是否请求成功,调试时候很有用
        print(res)
        html = etree.HTML(res.text)
        imgs = html.xpath("//img[@class='height_min']")
        for img in imgs:
            # html.xpath返回的是一个迭代器,要用get方法获取内容
            src = img.get('src')
            # 将img的url地址存入队列
            img_q.put(src)
        # 强制休眠随机事件,防止反爬
        time.sleep(random.random())


def save_img():
    # 全局变量,查看下载数目
    global n
    while True:
        # 这里很重要,判断两个队列都空的时候,不继续下载图片
        # 这里如果只判断img_q的话,会造成此方法不起作用,因为刚开始img_q就是空的
        if img_q.empty() & page_q.empty():
            # 调试用
            print('img空了')
            break
        img_url = img_q.get()
        # 存在 当前目录的 图片 文件夹下,并切片url获得图片名,防止重复
        name = '图片/' + img_url[32:]
        # urllib.request 下载很方便,省了requests.get和 with open
        request.urlretrieve(img_url, name)
        print('{}下载成功!'.format(n))
        n += 1


def main():
    t_list = []
    start = time.time()
    url = 'https://www.buxiuse.com/?cid=3&page={}'
    # 将50页的url放入队列 page_q
    for i in range(1, 51):
        page_q.put(url.format(i))
    # 这里解释下为什么只开两个线程,多次测试以后,此处线程开多了会被反爬,status_code为503
    for i in range(2):
        t = threading.Thread(target=parse_page)
        t_list.append(t)
        t.start()
    # 开5个线程,爬图
    for i in range(5):
        t1 = threading.Thread(target=save_img)
        t_list.append(t1)
        t1.start()
    # 所有线程设置阻塞
    for t in t_list:
        t.join()
    end = time.time()
    print(end - start)


if __name__ == '__main__':
    main()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值