20-多线程

最新推荐文章于 2023-04-16 12:27:45 发布

兮知

最新推荐文章于 2023-04-16 12:27:45 发布

阅读量300

点赞数

分类专栏： python基础文章标签： python

本文链接：https://blog.csdn.net/qq_44087994/article/details/126429888

版权

python基础专栏收录该内容

34 篇文章 1 订阅

订阅专栏

文章目录

多线程

1、基本概念

1.1 线程和进程

进程：一个正在运行的应用程序就是一个进程，每个进程均运行在其专门且受保护的内存空间中
线程：线程就是执行任务的基本单元（一个进程中的任务都是在线程中执行的）

进程就是车间，线程就是车间里面的工人
一个进程中默认有一个线程，这个线程叫做主线程

1.2 线程的特点

如果在一个线程中执行多个任务，任务是串行执行的
当一个程序中有很多个任务的时候如果只有一个线程，那么程序的执行效率很低

1.3 多线程

一个进程中有多个线程叫做多线程
多线程执行任务的时候多个任务可以同时执行（并行）

1.4 多线程原理

一个cpu同一时间只能调度一个线程，多线程其实是cpu快速的在多个线程之间进行切换，造成多个线程同时执行的假象
(提高cpu利用率)

2、python使用多线程的方法

一个进程默认只有一个线程，这个线程叫主线程，主线程以外的线程都叫子线程

python程序中如果需要子线程，必须创建线程类（Thread）的对象

3、示例

from threading import Thread
from time import sleep
from datetime import datetime

def download(name):
    print(f'{name}开始下载：{datetime.now()}')
    sleep(2)
    print(f'{name}下载结束：{datetime.now()}')
if __name__ == '__main__':
    # 使用3个子线程分别下载3个电影
    # 1) 创建线程对象
    '''
    线程对象=Thread(target=函数,args=元组)
    a.函数    可以是普通函数的函数名，也可以是匿名函数，这个函数就是需要子线程中执行的任务
    b.元组    元组中的元素就是在子线程中农调用target对应的函数的时候需要的参数
    '''
    t1=Thread(target=download,args=('肖申克的救赎',))
    t2=Thread(target=download,args=('霸王别姬',))
    t3=Thread(target=download,args=('阿甘正传',))
    # 2 启动线程    让子线程调用对用的函数
    t1.start()
    t2.start()
    t3.start()

线程池

线程池是管理多个线程的工具

线程池的工作原理：先创建指定个数的线程，然后调度多个任务（任务数量>线程数量），让线程池中的线程去执行添加的任务，直到所有任务都执行完（线程池中的每个线程可能会执行多个任务）

1、导包

from concurrent.futures import ThreadPoolExecutor

2、创建线程池

ThreadPoolExecutor(线程数最大值)

 pool=ThreadPoolExecutor(100)

3、添加任务

3.1 一次添加一个任务

submit(函数,实参1,实参2,…)–实参的个数由函数形参个数决定

pool.submit(download,'肖申克的救赎')

3.2 同时添加多个任务

map(函数,参数序列)–参数序列中有多少个元素就提交多少个任务

使用map添加多个任务的时候，任务对应的函数必须有且只有一个参数

pool.map(download,['独行月球','恐怖邮轮','沉默的羔羊','马蒂的爷爷'])

4、关闭线程池

关闭线程池之后无法添加新的任务

pool.shutdown()

示例

from time import sleep
from datetime import datetime
from concurrent.futures import ThreadPoolExecutor
def download(name):
    print(f'{name}开始下载：{datetime.now()}')
    sleep(1)
    print(f'{name}下载结束：{datetime.now()}')
if __name__ == '__main__':
    # 1、创建线程池  ThreadPoolExecutor(线程数最大值)
    pool=ThreadPoolExecutor(100)
    # 2 添加任务
    # 1）一次添加一个任务
    # submit(函数,实参1,实参2,...)--实参的个数由函数形参个数决定
    pool.submit(download,'肖申克的救赎')
    # 2）同时添加多个任务
    # map(函数,参数序列)--参数序列中有多少个元素就提交多少个任务
    # 使用map添加多个任务的时候，任务对应的函数必须有且只有一个参数
    pool.map(download,['独行月球','恐怖邮轮','沉默的羔羊','马蒂的爷爷'])
    # 3 关闭线程池
    # 关闭线程池之后无法添加新的任务
    pool.shutdown()

多线程下载豆瓣电影信息示例：

import requests
import csv
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from re import findall
from datetime import datetime

f=open('file/05线程池下载豆瓣.csv', 'w', encoding='utf-8', newline='')
writer=csv.writer(f)
writer.writerow(['名字', '分数', '评论人数', '介绍'])

def get_html(url):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    return response.text
def download(url: str):
    i=int(findall(r'(\d+)&',url)[0])//25
    # print(f'第{i}页开始下载：{datetime.now()}')
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    all_li = soup.select('.grid_view>li')
    new_list = []
    for li in all_li:
        rank=li.select_one('.item>.pic>em').text
        name = li.select_one('.item>.info>.hd .title').text
        scores = li.select_one('.bd>.star>.rating_num').text
        numbers = li.select_one('.item>.info>.bd>.star>span:nth-child(4)').text
        info = li.select_one('.bd>.quote')
        if info:
            info = li.select_one('.bd>.quote').text.strip()
        else:
            info=''
        new_list.append([rank,name, scores, numbers, info])
    # print(new_list)
    writer.writerows(new_list)

    print(f'第{i}页下载完成:{datetime.now()}')
    # return new_list
if __name__ == '__main__':
    pool = ThreadPoolExecutor(2)
    url_list=[]
    for i in range(0, 101, 25):
        url = f'https://movie.douban.com/top250?start={i}&filter='
        url_list.append(url)
    pool.map(download,url_list)
    pool.shutdown()

多线程下载豆瓣电影信息示例：

import requests
import csv
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from re import findall
from datetime import datetime

f=open('file/05线程池下载豆瓣1.csv', 'w', encoding='utf-8', newline='')
writer=csv.writer(f)
writer.writerow(['名字', '分数', '评论人数', '介绍'])

def get_html(url):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    return response.text


def download(url: str):
    i=int(findall(r'(\d+)&',url)[0])//25
    # print(f'第{i}页开始下载：{datetime.now()}')
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    all_li = soup.select('.grid_view>li')
    new_list = []
    for li in all_li:
        rank=li.select_one('.item>.pic>em').text
        name = li.select_one('.item>.info>.hd .title').text
        scores = li.select_one('.bd>.star>.rating_num').text
        numbers = li.select_one('.item>.info>.bd>.star>span:nth-child(4)').text
        info = li.select_one('.bd>.quote')
        if info:
            info = li.select_one('.bd>.quote').text.strip()
        else:
            info=''
        new_list.append([rank,name, scores, numbers, info])
    films.append(new_list)
    # writer.writerows(new_list)

    print(f'第{i}页下载完成:{datetime.now()}')
    # return new_list
if __name__ == '__main__':

    #方案2   拿到所有数据然后排序---优化方法--按照页排序
    films=[]
    pool = ThreadPoolExecutor(1000)
    for i in range(0, 51, 25):
        url = f'https://movie.douban.com/top250?start={i}&filter='
        pool.submit(download, url)
    pool.shutdown()
    films.sort()
    for i in films:
        writer.writerows(i)