20-多线程

多线程
1、基本概念
1.1 线程和进程

进程:一个正在运行的应用程序就是一个进程,每个进程均运行在其专门且受保护的内存空间中
线程:线程就是执行任务的基本单元(一个进程中的任务都是在线程中执行的)

进程就是车间,线程就是车间里面的工人
一个进程中默认有一个线程,这个线程叫做主线程

1.2 线程的特点

如果在一个线程中执行多个任务,任务是串行执行的
当一个程序中有很多个任务的时候 如果只有一个线程,那么程序的执行效率很低

1.3 多线程

一个进程中有多个线程叫做多线程
多线程执行任务的时候多个任务可以同时执行(并行)

1.4 多线程原理

一个cpu同一时间只能调度一个线程,多线程其实是cpu快速的在多个线程之间进行切换,造成多个线程同时执行的假象
(提高cpu利用率)

2、python使用多线程的方法

一个进程默认只有一个线程,这个线程叫主线程,主线程以外的线程都叫子线程

python程序中如果需要子线程,必须创建线程类(Thread)的对象

3、示例
from threading import Thread
from time import sleep
from datetime import datetime

def download(name):
    print(f'{name}开始下载:{datetime.now()}')
    sleep(2)
    print(f'{name}下载结束:{datetime.now()}')
if __name__ == '__main__':
    # 使用3个子线程分别下载3个电影
    # 1) 创建线程对象
    '''
    线程对象=Thread(target=函数,args=元组)
    a.函数    可以是普通函数的函数名,也可以是匿名函数,这个函数就是需要子线程中执行的任务
    b.元组    元组中的元素就是在子线程中农调用target对应的函数的时候需要的参数
    '''
    t1=Thread(target=download,args=('肖申克的救赎',))
    t2=Thread(target=download,args=('霸王别姬',))
    t3=Thread(target=download,args=('阿甘正传',))
    # 2 启动线程    让子线程调用对用的函数
    t1.start()
    t2.start()
    t3.start()
线程池

线程池是管理多个线程的工具

线程池的工作原理:先创建指定个数的线程,然后调度多个任务(任务数量>线程数量),让线程池中的线程去执行添加的任务,直到所有任务都执行完(线程池中的每个线程可能会执行多个任务)

1、导包
from concurrent.futures import ThreadPoolExecutor
2、创建线程池

ThreadPoolExecutor(线程数最大值)

 pool=ThreadPoolExecutor(100)
3、添加任务
3.1 一次添加一个任务

submit(函数,实参1,实参2,…)–实参的个数由函数形参个数决定

pool.submit(download,'肖申克的救赎')
3.2 同时添加多个任务

map(函数,参数序列)–参数序列中有多少个元素就提交多少个任务

使用map添加多个任务的时候,任务对应的函数必须有且只有一个参数

pool.map(download,['独行月球','恐怖邮轮','沉默的羔羊','马蒂的爷爷'])
4、关闭线程池

关闭线程池之后无法添加新的任务

pool.shutdown()
示例
from time import sleep
from datetime import datetime
from concurrent.futures import ThreadPoolExecutor
def download(name):
    print(f'{name}开始下载:{datetime.now()}')
    sleep(1)
    print(f'{name}下载结束:{datetime.now()}')
if __name__ == '__main__':
    # 1、创建线程池  ThreadPoolExecutor(线程数最大值)
    pool=ThreadPoolExecutor(100)
    # 2 添加任务
    # 1)一次添加一个任务
    # submit(函数,实参1,实参2,...)--实参的个数由函数形参个数决定
    pool.submit(download,'肖申克的救赎')
    # 2)同时添加多个任务
    # map(函数,参数序列)--参数序列中有多少个元素就提交多少个任务
    # 使用map添加多个任务的时候,任务对应的函数必须有且只有一个参数
    pool.map(download,['独行月球','恐怖邮轮','沉默的羔羊','马蒂的爷爷'])
    # 3 关闭线程池
    # 关闭线程池之后无法添加新的任务
    pool.shutdown()
多线程下载豆瓣电影信息示例:
import requests
import csv
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from re import findall
from datetime import datetime

f=open('file/05线程池下载豆瓣.csv', 'w', encoding='utf-8', newline='')
writer=csv.writer(f)
writer.writerow(['名字', '分数', '评论人数', '介绍'])

def get_html(url):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    return response.text
def download(url: str):
    i=int(findall(r'(\d+)&',url)[0])//25
    # print(f'第{i}页开始下载:{datetime.now()}')
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    all_li = soup.select('.grid_view>li')
    new_list = []
    for li in all_li:
        rank=li.select_one('.item>.pic>em').text
        name = li.select_one('.item>.info>.hd .title').text
        scores = li.select_one('.bd>.star>.rating_num').text
        numbers = li.select_one('.item>.info>.bd>.star>span:nth-child(4)').text
        info = li.select_one('.bd>.quote')
        if info:
            info = li.select_one('.bd>.quote').text.strip()
        else:
            info=''
        new_list.append([rank,name, scores, numbers, info])
    # print(new_list)
    writer.writerows(new_list)

    print(f'第{i}页下载完成:{datetime.now()}')
    # return new_list
if __name__ == '__main__':
    pool = ThreadPoolExecutor(2)
    url_list=[]
    for i in range(0, 101, 25):
        url = f'https://movie.douban.com/top250?start={i}&filter='
        url_list.append(url)
    pool.map(download,url_list)
    pool.shutdown()
   
多线程下载豆瓣电影信息示例:
import requests
import csv
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from re import findall
from datetime import datetime

f=open('file/05线程池下载豆瓣1.csv', 'w', encoding='utf-8', newline='')
writer=csv.writer(f)
writer.writerow(['名字', '分数', '评论人数', '介绍'])

def get_html(url):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    return response.text


def download(url: str):
    i=int(findall(r'(\d+)&',url)[0])//25
    # print(f'第{i}页开始下载:{datetime.now()}')
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    all_li = soup.select('.grid_view>li')
    new_list = []
    for li in all_li:
        rank=li.select_one('.item>.pic>em').text
        name = li.select_one('.item>.info>.hd .title').text
        scores = li.select_one('.bd>.star>.rating_num').text
        numbers = li.select_one('.item>.info>.bd>.star>span:nth-child(4)').text
        info = li.select_one('.bd>.quote')
        if info:
            info = li.select_one('.bd>.quote').text.strip()
        else:
            info=''
        new_list.append([rank,name, scores, numbers, info])
    films.append(new_list)
    # writer.writerows(new_list)

    print(f'第{i}页下载完成:{datetime.now()}')
    # return new_list
if __name__ == '__main__':

    #方案2   拿到所有数据然后排序---优化方法--按照页排序
    films=[]
    pool = ThreadPoolExecutor(1000)
    for i in range(0, 51, 25):
        url = f'https://movie.douban.com/top250?start={i}&filter='
        pool.submit(download, url)
    pool.shutdown()
    films.sort()
    for i in films:
        writer.writerows(i)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

兮知

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值