210406课多线程与多进程

最新推荐文章于 2021-04-28 17:22:31 发布

花镜渊

最新推荐文章于 2021-04-28 17:22:31 发布

阅读量120

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/AncenaJune/article/details/115468264

版权

python 同时被 2 个专栏收录

34 篇文章 0 订阅

订阅专栏

爬虫

5 篇文章 0 订阅

订阅专栏

210406课多线程/多进程编程

如何实现并发(并行)编程?

并行:真正的同时进行,需多核CPU支持
并发:通过快速的切换制造出并行的效果

线程:操作系统分配CPU基本单位,最小的执行单元

进程:操作系统分配内存的基本单位,是程序在一组数据上的活动

通常我们启动一个程序,就启动了一个(或多个)进程,一个进程中又可以包含多个线程

单线程:只有主线程,只有唯一的一个执行线索

# 例子:单线程爬取360的美女图片
import time

import requests
from selenium.webdriver import Chrome


def dowload_image(image_url):
    resp = requests.get(image_url)
    if resp.status_code == 200:
        filename = image_url[image_url.rfind('/') + 1:]
        try:
            with open(f'image360/{filename}', 'wb') as file:
                for data in resp.iter_content(512):
                    file.write(data)
        except OSError:
            pass


def main():
    browser = Chrome()
    browser.get('https://image.so.com/z?ch=beauty')

    # 让浏览器执行javascript代码
    for _ in range(20):
        browser.execute_script('window.scrollTo(0, window.scrollY + 1500)')
        time.sleep(0.5)
    # 隐式等待
    browser.implicitly_wait(10)
    image_tags = browser.find_elements_by_css_selector('span.img > img')
    start = time.time()
    for image_tag in image_tags:
        image_url = image_tag.get_attribute('src')
        dowload_image(image_url)
    end = time.time()
    print(f'{end - start:.3f}秒')
    browser.close()


if __name__ == '__main__':
    main()

多线程:处理I/O密集型任务

(爬虫)

–> GIL(全局解释器锁)

'''
多线程
'''
import random
import time
from concurrent.futures.thread import ThreadPoolExecutor
from threading import Thread

'''
装饰器:用一个函数去装饰另外一个函数或者类,为其提供额外的功能
     专门作用于横切关注功能(跟正常业务逻辑没有必然影响的功能)
装饰器实现了设计模式(前人总结的可重复使用的设计理念)的代理模式
'''


# 装饰器的参数是被装饰的函数,返回值是带有装饰功能的函数
def record_time(func):
    # 带有装饰功能的函数
    def wrapper(*args, **kwargs):
        start = time.time()
        result = func(*args, **kwargs)
        end = time.time()
        print(f'{func.__name__}执行时间:{end - start:.3f}秒')
        return result

    return wrapper


@record_time
def download(filename):

    print(f'开始下载{filename}.')
    time.sleep(random.randint(5, 8))
    print(f'{filename}下载完成.')


@record_time
def upload(filename):
    print(f'开始上传{filename}.')
    time.sleep(random.randint(5, 8))
    print(f'{filename}上传完成.')

# 用法一:
# @record_time
# def main():
    # # 通过调用Thread类的构造器就可以创建线程对象
    # # 通过指定target和args参数告诉线程启动后要执行的任务以及对应的参数
    # t1 = Thread(target=download, args=('爬虫从入门到入狱',))
    # t2 = Thread(target=download, args=('MYSQL从删库到跑路',))
    # t3 = Thread(target=upload, args=('数据分析从精通到放弃',))
    # # 通过调用线程对象的start()方法启动线程
    # t1.start()
    # t2.start()
    # t3.start()
    # # 通过调用线程对象的join()方法等待线程结束
    # # 让主线程等待t1,t2,t3对应的线程执行结束
    # t1.join()
    # t2.join()
    # t3.join()


# 用法二: 线程池
@record_time
def main():
    with ThreadPoolExecutor(max_workers=32) as pool:
        # 调用线程池对象的submit方法将任务交给线程池中的线程去执行
        # submit方法会返回将来线程的执行结果
        f1 = pool.submit(download, '爬虫从入门到入狱')
        f2 = pool.submit(download, 'MYSQL从删库到跑路')
        f3 = pool.submit(upload, '数据分析从精通到放弃')
        # f1.result()
        # f2.result()
        # f3.result()


if __name__ == '__main__':
    main()

# 例子:多线程爬取360的美女图片
import time
from concurrent.futures.thread import ThreadPoolExecutor

import requests
from selenium.webdriver import Chrome


def dowload_image(image_url):
    resp = requests.get(image_url)
    if resp.status_code == 200:
        filename = image_url[image_url.rfind('/') + 1:]
        try:
            with open(f'image360/{filename}', 'wb') as file:
                for data in resp.iter_content(512):
                    file.write(data)
        except OSError:
            pass


def main():
    browser = Chrome()
    browser.get('https://image.so.com/z?ch=beauty')

    # 让浏览器执行javascript代码
    for _ in range(20):
        browser.execute_script('window.scrollTo(0, window.scrollY + 1500)')
        time.sleep(0.5)
    # 隐式等待
    browser.implicitly_wait(10)
    image_tags = browser.find_elements_by_css_selector('span.img > img')

    with ThreadPoolExecutor(max_workers=32) as pool:
        start = time.time()
        for image_tag in image_tags:
            image_url = image_tag.get_attribute('src')
            pool.submit(dowload_image, image_url)
    end = time.time()
    print(f'下载耗时:{end - start:.3f}秒')
    browser.close()


if __name__ == '__main__':
    main()

多进程:处理计算密集型任务

音视频编解码,文件压缩,机器学习算法

--> 一般在GPU显卡上运行

# 例子:多进程爬取360的美女图片
import time
from concurrent.futures.process import ProcessPoolExecutor

import requests
from selenium.webdriver import Chrome


def dowload_image(image_url):
    resp = requests.get(image_url)
    if resp.status_code == 200:
        filename = image_url[image_url.rfind('/') + 1:]
        try:
            with open(f'image360/{filename}', 'wb') as file:
                for data in resp.iter_content(512):
                    file.write(data)
        except OSError:
            pass


def main():
    browser = Chrome()
    browser.get('https://image.so.com/z?ch=beauty')

    for _ in range(20):
        # 让浏览器执行JavaScript代码
        browser.execute_script('window.scrollTo(0, window.scrollY + 1500)')
        time.sleep(0.5)

    # 隐式等待
    # 在使用find_xxx方法获取页面元素时，如果元素还没有出现，可以等待指定的时间，
    # 如果等待超时就引发异常，如果在指定的时间内获取到元素就返回对应的元素
    browser.implicitly_wait(10)
    # # 显示等待 ---> 创建一个等待对象
    # wait = WebDriverWait(browser, 10)
    # # 设置等待条件
    # wait.until(expected_conditions.presence_of_element_located(
    #     (By.CSS_SELECTOR, 'span.img > img')
    # ))
    image_tags = browser.find_elements_by_css_selector('span.img > img')
    # print(len(image_tags))

    with ProcessPoolExecutor(max_workers=32) as pool:
        start = time.time()
        for image_tag in image_tags:
            image_url = image_tag.get_attribute('src')
            pool.submit(dowload_image, image_url)
    end = time.time()
    print(f'下载耗时: {end - start:.3f}秒')
    browser.close()


if __name__ == '__main__':
    main()

异步编程:适合处理I/O密集型任务

--> 通过提高CPU利用率达到协作式并发效果

-->比多线程更高效,由于内容复杂,择日再写

easyocr 光学文字识别
- 用于识别验证码
- 安装方式: 在终端上输入 pip install easyocr

花镜渊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
210406课多线程与多进程

210406课多线程/多进程编程如何实现并发(并行)编程?并行:真正的同时进行,需多核CPU支持并发:通过快速的切换制造出并行的效果线程:操作系统分配CPU基本单位,最小的执行单元进程:操作系统分配内存的基本单位,是程序在一组数据上的活动通常我们启动一个程序,就启动了一个(或多个)进程,一个进程中又可以包含多个线程单线程:只有主线程,只有唯一的一个执行线索# 例子:单线程爬取360的美女图片import timeimport requestsfrom seleni
复制链接

扫一扫