文章目录
多线程
1、基本概念
1.1 线程和进程
进程:一个正在运行的应用程序就是一个进程,每个进程均运行在其专门且受保护的内存空间中
线程:线程就是执行任务的基本单元(一个进程中的任务都是在线程中执行的)
进程就是车间,线程就是车间里面的工人
一个进程中默认有一个线程,这个线程叫做主线程
1.2 线程的特点
如果在一个线程中执行多个任务,任务是串行执行的
当一个程序中有很多个任务的时候 如果只有一个线程,那么程序的执行效率很低
1.3 多线程
一个进程中有多个线程叫做多线程
多线程执行任务的时候多个任务可以同时执行(并行)
1.4 多线程原理
一个cpu同一时间只能调度一个线程,多线程其实是cpu快速的在多个线程之间进行切换,造成多个线程同时执行的假象
(提高cpu利用率)
2、python使用多线程的方法
一个进程默认只有一个线程,这个线程叫主线程,主线程以外的线程都叫子线程
python程序中如果需要子线程,必须创建线程类(Thread)的对象
3、示例
from threading import Thread
from time import sleep
from datetime import datetime
def download(name):
print(f'{name}开始下载:{datetime.now()}')
sleep(2)
print(f'{name}下载结束:{datetime.now()}')
if __name__ == '__main__':
# 使用3个子线程分别下载3个电影
# 1) 创建线程对象
'''
线程对象=Thread(target=函数,args=元组)
a.函数 可以是普通函数的函数名,也可以是匿名函数,这个函数就是需要子线程中执行的任务
b.元组 元组中的元素就是在子线程中农调用target对应的函数的时候需要的参数
'''
t1=Thread(target=download,args=('肖申克的救赎',))
t2=Thread(target=download,args=('霸王别姬',))
t3=Thread(target=download,args=('阿甘正传',))
# 2 启动线程 让子线程调用对用的函数
t1.start()
t2.start()
t3.start()
线程池
线程池是管理多个线程的工具
线程池的工作原理:先创建指定个数的线程,然后调度多个任务(任务数量>线程数量),让线程池中的线程去执行添加的任务,直到所有任务都执行完(线程池中的每个线程可能会执行多个任务)
1、导包
from concurrent.futures import ThreadPoolExecutor
2、创建线程池
ThreadPoolExecutor(线程数最大值)
pool=ThreadPoolExecutor(100)
3、添加任务
3.1 一次添加一个任务
submit(函数,实参1,实参2,…)–实参的个数由函数形参个数决定
pool.submit(download,'肖申克的救赎')
3.2 同时添加多个任务
map(函数,参数序列)–参数序列中有多少个元素就提交多少个任务
使用map添加多个任务的时候,任务对应的函数必须有且只有一个参数
pool.map(download,['独行月球','恐怖邮轮','沉默的羔羊','马蒂的爷爷'])
4、关闭线程池
关闭线程池之后无法添加新的任务
pool.shutdown()
示例
from time import sleep
from datetime import datetime
from concurrent.futures import ThreadPoolExecutor
def download(name):
print(f'{name}开始下载:{datetime.now()}')
sleep(1)
print(f'{name}下载结束:{datetime.now()}')
if __name__ == '__main__':
# 1、创建线程池 ThreadPoolExecutor(线程数最大值)
pool=ThreadPoolExecutor(100)
# 2 添加任务
# 1)一次添加一个任务
# submit(函数,实参1,实参2,...)--实参的个数由函数形参个数决定
pool.submit(download,'肖申克的救赎')
# 2)同时添加多个任务
# map(函数,参数序列)--参数序列中有多少个元素就提交多少个任务
# 使用map添加多个任务的时候,任务对应的函数必须有且只有一个参数
pool.map(download,['独行月球','恐怖邮轮','沉默的羔羊','马蒂的爷爷'])
# 3 关闭线程池
# 关闭线程池之后无法添加新的任务
pool.shutdown()
多线程下载豆瓣电影信息示例:
import requests
import csv
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from re import findall
from datetime import datetime
f=open('file/05线程池下载豆瓣.csv', 'w', encoding='utf-8', newline='')
writer=csv.writer(f)
writer.writerow(['名字', '分数', '评论人数', '介绍'])
def get_html(url):
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
return response.text
def download(url: str):
i=int(findall(r'(\d+)&',url)[0])//25
# print(f'第{i}页开始下载:{datetime.now()}')
html = get_html(url)
soup = BeautifulSoup(html, 'lxml')
all_li = soup.select('.grid_view>li')
new_list = []
for li in all_li:
rank=li.select_one('.item>.pic>em').text
name = li.select_one('.item>.info>.hd .title').text
scores = li.select_one('.bd>.star>.rating_num').text
numbers = li.select_one('.item>.info>.bd>.star>span:nth-child(4)').text
info = li.select_one('.bd>.quote')
if info:
info = li.select_one('.bd>.quote').text.strip()
else:
info=''
new_list.append([rank,name, scores, numbers, info])
# print(new_list)
writer.writerows(new_list)
print(f'第{i}页下载完成:{datetime.now()}')
# return new_list
if __name__ == '__main__':
pool = ThreadPoolExecutor(2)
url_list=[]
for i in range(0, 101, 25):
url = f'https://movie.douban.com/top250?start={i}&filter='
url_list.append(url)
pool.map(download,url_list)
pool.shutdown()
多线程下载豆瓣电影信息示例:
import requests
import csv
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from re import findall
from datetime import datetime
f=open('file/05线程池下载豆瓣1.csv', 'w', encoding='utf-8', newline='')
writer=csv.writer(f)
writer.writerow(['名字', '分数', '评论人数', '介绍'])
def get_html(url):
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
return response.text
def download(url: str):
i=int(findall(r'(\d+)&',url)[0])//25
# print(f'第{i}页开始下载:{datetime.now()}')
html = get_html(url)
soup = BeautifulSoup(html, 'lxml')
all_li = soup.select('.grid_view>li')
new_list = []
for li in all_li:
rank=li.select_one('.item>.pic>em').text
name = li.select_one('.item>.info>.hd .title').text
scores = li.select_one('.bd>.star>.rating_num').text
numbers = li.select_one('.item>.info>.bd>.star>span:nth-child(4)').text
info = li.select_one('.bd>.quote')
if info:
info = li.select_one('.bd>.quote').text.strip()
else:
info=''
new_list.append([rank,name, scores, numbers, info])
films.append(new_list)
# writer.writerows(new_list)
print(f'第{i}页下载完成:{datetime.now()}')
# return new_list
if __name__ == '__main__':
#方案2 拿到所有数据然后排序---优化方法--按照页排序
films=[]
pool = ThreadPoolExecutor(1000)
for i in range(0, 51, 25):
url = f'https://movie.douban.com/top250?start={i}&filter='
pool.submit(download, url)
pool.shutdown()
films.sort()
for i in films:
writer.writerows(i)