python进阶篇-day07-进程与线程

开出南方的花

于 2024-09-05 18:16:16 发布

阅读量719

点赞数 24

文章标签： python 开发语言 pygame pycharm django pandas numpy

本文链接：https://blog.csdn.net/m0_60916732/article/details/141937709

版权

day06进程与线程

一. 进程

每个软件都可以看作是一个进程(数据隔离)

软件内的多个任务可以看作是多个线程(数据共享)

单核CPU: 宏观并行, 微观并发

真正的并行必须有多核CPU

多任务介绍

概述

多任务指的是, 多个任务"同时"执行

目的

节约资源, 充分利用CPU资源, 提高效率

表现形式

并发

针对于单核CPU来讲, 如果有多个任务同时请求执行, 但是同一瞬间CPU只能执行1个(任务), 于是就安排他们交替执行.

因为时间间隔非常短, 所以宏观上看是并行, 但是微观上还是并发的.

并行

针对多核CPU来讲, 多个任务可以同时执行

进程介绍

概述

进程: 指的是可执行程序(*.exe), 也是CPU分配资源的最小单位.

线程: 进程的执行路径, 执行单元, 也是CPU调度资源的最小单位

解释:

进程: 车

线程: 车道

多进程实现

步骤

导包(multiprocessing)
创建进程对象, 关联该进程要执行的任务(函数)
启动进程执行任务

代码

import multiprocessing, time


# 定义代码函数
def coding():
    for i in range(1, 21):
        time.sleep(1)
        print(f'正在敲代码----  {i}')

        
# 定义音乐函数
def music():
    for i in range(1, 21):
        time.sleep(1)
        print(f'正在听音乐****  {i}')


if __name__ == '__main__':
    # 创建进程对象
    p1 = multiprocessing.Process(target=coding)
    p2 = multiprocessing.Process(target=music)
    # 执行进程
    p1.start()
    p2.start()

进程参数

参数

target: 用于关联进程要执行的任务的.name: 进程名, 默认是: Process-1, Process-2,...., 可以手动修改, 一般不改.args: 可以通过元组的形式传递参数, 实参的个数及对应的数据类型要和形参的个数及类型一致.kwargs: 可以通过字典的形式传递参数, 实参的个数要和形参的个数一致.

代码演示

import multiprocessing, time


def coding(name, num):
    for i in range(1, num):
        time.sleep(0.01)
        print(f'{name}正在敲第{i}行代码-')


def music(name, num):
    for i in range(1, num):
        time.sleep(0.01)
        print(f'{name}正在听第{i}首音乐********')


if __name__ == '__main__':
    p1 = multiprocessing.Process(target=coding, args=('小明', 21))
    p2 = multiprocessing.Process(target=music, kwargs={'num': 21, 'name': '小明'})
    p11 = multiprocessing.Process(target=coding, args=('小明', 21), name='QQ')
    p22 = multiprocessing.Process(target=music, kwargs={'num': 21, 'name': '小明'}, name='WX')
    print(f'p1:{p1.name}')
    print(f'p2:{p2.name}')
    print(f'p11:{p11.name}')
    print(f'p22:{p22.name}')
    p1.start()
    p2.start()

main进程

解释

main程序入口也相当于一个进程, 在程序执行时遇到自定义进程会发生资源抢占, 上述代码中在输出进程对象后, 进程才启动, 所以上述的自定义进程不会和main进程强制资源, 并且自定义进程的启动需要一定时间, 此时的main进程可能已经完成自己的任务, 执行自定义进程.

图解

代码

import multiprocessing, time


def coding(name, num):
    for i in range(1, num):
        time.sleep(0.01)
        print(f'{name}正在敲第{i}行代码-')


def music(name, num):
    for i in range(1, num):
        time.sleep(0.01)
        print(f'{name}正在听第{i}首音乐********')


if __name__ == '__main__':
    p1 = multiprocessing.Process(target=coding, args=('小明', 11))
    p2 = multiprocessing.Process(target=music, kwargs={'num': 11, 'name': '小明'})
    # p11 = multiprocessing.Process(target=coding, args=('小明', 11), name='QQ')
    # p22 = multiprocessing.Process(target=music, kwargs={'num': 11, 'name': '小明'}, name='WX')
    p1.start()
    p2.start()
    # print(f'p1:{p1.name}')
    # time.sleep(0.1)
    # print(f'p2:{p2.name}')
    # time.sleep(0.1)
    # print(f'p11:{p11.name}')
    # time.sleep(0.1)
    # print(f'p22:{p22.name}')

    for i in range(1, 21):
        print(f'main: -------  {i}')
        time.sleep(0.1)

注: 上述代码中, 若将main中的循环放到自定义进程前, 则自定义进程不会和main抢占资源, 因为执行完main中的循环才执行到自定义进程, 可以把main函数看作栈, 从上到下执行

代码执行结果(每次可能都不一样)

进程编号

前面创建的进程为main进程的子进程, main为前面进程的父进程,

main的父进程为pycharm

程序执行默认有main函数

在操作系统中, 每个进程都有自己唯一的ID, 且当前进程被终止时, 该ID会被回收, 即: ID是可以重复使用的.

目的

查找子进程是由那个父进程创建的, 即: 找子进程和父进程的ID.
方便我们维护进程, 例如: kill -9 pid值可以强制杀死进程.

当前编号

方式1: os模块的 getpid()方法方式2: multiprocessing模块的current_process()方法的 pid属性

当前的父进程编号

os模块的 getppid()方法 parent process: 父进程

代码演示

# 导包
import multiprocessing, time, os


# 案例: 小明一边敲着第n行代码, 一边听着第n首音乐.
# 1. 定义函数, 表示: 敲代码.
def code(name, num):
    for i in range(1, num + 1):
        print(f'{name} 正在敲第 {i} 行代码...')
        time.sleep(0.1)
        # multiprocessing模块的current_process()函数: 获取当前进程对象
        print(f'当前进程(p1)的id: {os.getpid()}, {multiprocessing.current_process().pid}, 父进程的id为: {os.getppid()}')


# 2. 定义函数, 表示: 听音乐
def music(name, count):
    for i in range(1, count + 1):
        print(f'{name} 正在听第 {i} 首音乐.........')
        time.sleep(0.1)
        print(f'当前进程(p2)的id: {os.getpid()}, {multiprocessing.current_process().pid}, 父进程的id为: {os.getppid()}')


# 在main中测试.
if __name__ == '__main__':
    # 3. 创建进程对象.
    # Process类的参数: target: 关联的函数名, name: 当前进程的名字, args:元组的形式传参. kwargs: 字典的形式传参.
    p1 = multiprocessing.Process(name='Process_QQ', target=code, args=('乔峰', 10))
    p2 = multiprocessing.Process(name='Process_Wechat', target=music, kwargs={'count': 10, 'name': '虚竹'})

    # print(f"p1进程的名字: {p1.name}")
    # print(f"p2进程的名字: {p2.name}")

    # 4. 启动进程.
    p1.start()
    p2.start()

    print(f'当前进程(main)的id: {os.getpid()}, {multiprocessing.current_process().pid}, 父进程的id为: {os.getppid()}')

执行效果

进程注意事项

关于进程, 你要记忆的内容: 1. 进程之间数据是相互隔离的. 例如: 微信(进程) 和 QQ(进程)之间, 数据就是相互隔离的.

默认情况下, 主进程会等待它所有的子进程执行结束再结束.

细节: 多进程之间, 针对于 main进程的(外部资源), 每个子进程都会拷贝一份, 进行执行.

数据隔离

代码

import multiprocessing, time

# 需求: 定义1个列表, 然后定义两个函数, 分别往列表中添加数据, 获取数据. 
# 之后用两个进程关联这个两个函数, 启动进程并观察结果.
# 1. 定义全局变量 my_list
my_list = []
print('我是main外资源, 看看我执行了几遍!')   # 执行三次

# 2. 定义函数, 实现往列表中添加数据.
def write_data():
    for i in range(1, 6):
        # 具体的添加元素的动作
        my_list.append(i)
        # 打印添加动作.
        print(f'添加 {i} 成功!')
    # 细节: 添加数据完毕后, 打印结果.
    print(f'write_data函数: {my_list}')

# 3. 定义函数, 实现从列表中获取数据.
def read_data():
    # 休眠 3 秒, 确保 write_data函数执行完毕.
    time.sleep(3)
    # 打印结果.
    print(f'read_data函数: {my_list}')


# 在main中测试
if __name__ == '__main__':
    # 4. 创建进程对象.
    p1 = multiprocessing.Process(target=write_data)
    p2 = multiprocessing.Process(target=read_data)

    # 5. 启动进程
    p1.start()
    p2.start()

    print('我是main内资源, 看看我执行了几遍!')   # 执行一次

执行结果

(默认)主进程等待子进程结束

演示

import multiprocessing, time


# 需求: 设置子进程执行3秒, 主进程执行1秒, 观察效果.
# 1. 定义方法, 用于关联子进程的.
def my_method():
    for i in range(10):
        print(f'工作中... {i}')
        time.sleep(0.3)  # 总休眠时间 = 0.3 * 10 = 3秒


# 2. 在main方法中测试.
if __name__ == '__main__':
    # 3. 创建子进程对象, 并启动.
    p1 = multiprocessing.Process(target=my_method)
    p1.start()  # 3秒后结束.

    # 4. 主进程执行1秒后结束.
    time.sleep(1)

    # 5. 打印主进程的结束提示.
    print('主进程 main 执行结束!')

解决

设置子进程为守护进程 p1.daemon = True 推荐

类似于: 骑士(守护) 和公主(非守护)
手动关闭子进程 p1.terminate() 不推荐(僵尸进程)

import multiprocessing, time


# 需求: 设置子进程执行3秒, 主进程执行1秒, 观察效果.
# 1. 定义方法, 用于关联子进程的.
def my_method():
    for i in range(10):
        print(f'工作中... {i}')
        time.sleep(0.3)  # 总休眠时间 = 0.3 * 10 = 3秒


# 2. 在main方法中测试.
if __name__ == '__main__':
    # 3. 创建子进程对象, 并启动.
    p1 = multiprocessing.Process(target=my_method)
    # 方式1: 设置子进程p1为守护进程, 
    # 非守护进程是: main进程, 所以: 当main进程关闭的时候, 它的守护进程也会关闭.
    # p1.daemon = True
    p1.start()  # 3秒后结束.

    # 4. 主进程执行1秒后结束.
    time.sleep(1)

    # 方式2: 手动关闭子进程.
    # 会导致子进程变成僵尸进程, 即: 不会立即释放资源.
    # 而是交由init进程接管(充当新的父进程), 在合适的时机释放资源.
    p1.terminate()      # 不推荐使用.

    # 5. 打印主进程的结束提示.
    print('主进程 main 执行结束!')

二. 线程

介绍

线程是CPU调度资源的最基本单位, 进程是CPU分配资源的基本单位.进程 = 可执行程序, 文件. 即: *.exe = 进程, 微信, QQ都是进程.线程 = 进程的执行路径, 执行单元. 微信这个进程, 可以实现: 和张三聊聊天, 和李四聊天, 查看朋友圈, 微信支付... 车在车道上跑, 有: 单行道, 双车道, 四车道, 八车道...

多线程实现

无论是进程, 还是线程, 都是实现多任务的一种方式, 目的都是: 充分利用CPU资源, 提高效率.线程的操作步骤: 1. 导包. 2. 创建线程对象. 3. 启动线程.

代码

# 导包
import threading, time

# 1.定义函数, 表示: 敲代码.
def coding():
    for i in range(10):
        print(f"正在敲代码... {i}")
        time.sleep(0.1)


# 2.定义函数, 表示: 听音乐
def music():
    for i in range(10):
        print(f"正在听音乐... {i}")
        time.sleep(0.1)

# 在main中测试.
if __name__ == '__main__':
    # 3. 创建线程对象, 分别关联上述的两个函数.
    t1 = threading.Thread(target=coding)
    t2 = threading.Thread(target=music)

    # 4. 启动线程.
    t1.start()
    t2.start()

带有参数

Thread类(线程类)中的参数和 Process类(进程类)的参数几乎一致: target: 关联目标函数的. name: 线程名(Thread-1, Thread-2...) 或者进程名(Process-1, Process-2...). args: 以元组的形式传参, 个数及对应的类型都要一致. kwargs: 以字典的形式传参, 个数要一致.

# 导包
# from threading import Thread
import threading, time


# 1. 定义函数, 实现: 小明正在敲第n行代码.
def coding(name, num):
    for i in range(1, num + 1):
        print(f'{name} 正在敲第 {i} 行代码...')
        time.sleep(0.1)


# 2. 定义函数, 实现: 小明正在听第n首音乐
def music(name, count):
    for i in range(1, count + 1):
        print(f'{name} 正在听第 {i} 首音乐......')
        time.sleep(0.1)


# 在main中测试
if __name__ == '__main__':
    # 3. 创建线程对象.
    t1 = threading.Thread(name='杨过', target=coding, args=('乔峰', 10))
    t2 = threading.Thread(name='大雕', target=music, kwargs={'count': 10, 'name': '慕容复'})
    # print(f't1线程的名字: {t1.name}')
    # print(f't2线程的名字: {t2.name}')

    # 4. 启动线程.
    t1.start()
    t2.start()

线程注意事项

记忆:

多线程的执行具有 随机性(无序性), 其实就是在抢CPU的过程, 谁抢到, 谁执行.

默认情况下: 主线程会等待子线程执行结束再结束.

线程之间会共享当前进程的资源.

多线程环境并发操作共享资源, 有可能引发安全问题, 需要通过线程同步(加锁) 的思想来解决.

关于CPU的资源分配, 调度, 思路主要有两种: 1. 均分时间片, 即: 每个进程(线程)占用CPU的时间都是相等的. 2. 抢占式调度, 谁抢到, 谁执行. Python用的是这种.

无序

# 导包
import threading, time


# 需求: 创建多个线程, 多次运行, 观察歌词线程的执行顺序.
# 1. 定义函数, 获取线程, 并打印.
def get_info():
    # 休眠.
    time.sleep(0.5)

    # 获取当前的线程对象, 并打印.
    cur_thread = threading.current_thread()
    print(f'当前线程是: {cur_thread}')



# 在main中测试
if __name__ == '__main__':
    # 2. 创建多个线程对象.
    for i in range(10):
        th = threading.Thread(target=get_info)
        # 3. 启动线程即可.
        th.start()

(默认)主线程等待子线程结束

演示

import threading, time


# 1. 定义函数, 执行: 3秒.
def coding():
    for i in range(10):
        print(f'coding... {i}')
        time.sleep(0.3)     # 总休眠时间 = 0.3 * 10 = 3秒


# 在main中测试
if __name__ == '__main__':
    # 2. 创建线程对象.
    th = threading.Thread(target=coding)

    # 3. 启动线程.
    th.start()

    # 4. 设置主线程(main线程), 执行1秒就关闭.
    time.sleep(1)

    # 5. 提示即可.
    print('主线程(main)执行结束了!')

解决

设置子线程为守护线程

import threading, time


# 1. 定义函数, 执行: 3秒.
def coding():
    for i in range(10):
        print(f'coding... {i}')
        time.sleep(0.3)     # 总休眠时间 = 0.3 * 10 = 3秒


# 在main中测试
if __name__ == '__main__':
    # 2. 创建线程对象.
    # 方式1: 设置th线程为: 守护线程.
    # th = threading.Thread(target=coding, daemon=True) # 推荐使用.

    # 方式2: setDaemon()函数实现.
    th = threading.Thread(target=coding)
    th.setDaemon(True)  # 函数已过时, 推荐使用方式1.

    # 3. 启动线程.
    th.start()

    # 4. 设置主线程(main线程), 执行1秒就关闭.
    time.sleep(1)

    # 5. 提示即可.
    print('主线程(main)执行结束了!')

共享全局变量

代码

import threading
import time

my_list = []
print('main外输出')


def write_list():
    for i in range(10):
        my_list.append(i)
        print(f'{i} 已经添加到列表中')
    print('write_list:', my_list)


def read_list():
    time.sleep(1)
    print('read_list:', my_list)


if __name__ == '__main__':
    th1 = threading.Thread(target=write_list)
    th2 = threading.Thread(target=read_list)
    th1.start()
    th2.start()

执行结果

数据安全

多线程环境并发操作共享资源, 有可能引发安全问题, 需要通过线程同步(加锁) 的思想来解决.参照4

演示:

# 导包
# 导包
import threading
import time

# 定义全局变量
num = 0


# 定义函数add1()累加
def add1():
    global num
    for i in range(1000000):
        num += 1
    print(f'add1: {num}')


# 定义函数add2()累加
def add2():
    global num
    for i in range(1000000):
        num += 1
    print(f'add2: {num}')


if __name__ == '__main__':
    # 创建线程对象
    th1 = threading.Thread(target=add1)
    th2 = threading.Thread(target=add2)

    # 启动线程
    th1.start()     # 19328862
    th2.start()     # 20000000

问题描述

两个线程分别对全局变量累加100W次, 正常应为100W 和 200W的结果,但是结果和想象不一样

原因

多线程环境并发操作共享资源, 引发安全问题

正常情况:

假设全局变量 global_num = 0
此时线程t1抢到了资源, 执行累加(一次)动作, 累加后: global_num = 1
假设线程t2抢到了资源, 执行累加(一次)动作, 累加后: global_num = 2

非正常情况:

假设全局变量 global_num = 0
此时线程t1抢到了资源, 但是还没有来得及执行累加动作时, 被t2线程抢走了资源.
此时线程t2读取到的 global_num = 0
此时就会出现线程t1累加1次, global_num = 1, 线程t2累加1次, global_num = 1
综上所述, t1和t2线程一共累加了2次, 但是 global_num的值只加了1
之所以会有这样的情况, 原因是: 1个线程在执行某1个完整动作期间, 可以被别的前程抢走资源, 就有可能引发安全问题.

解决方案

采用 线程同步 的思想, 即: 加锁

# 导包
import threading
import time

# 定义全局变量
num = 0
mutex = threading.Lock()


# 定义函数add1()累加
def add1():
    # 加锁
    mutex.acquire()
    global num
    for i in range(1000000):
        num += 1
    print(f'add1: {num}')
    # 释放锁
    mutex.release()


# 定义函数add2()累加
def add2():
    # 加锁
    mutex.acquire()
    global num
    for i in range(1000000):
        num += 1
    print(f'add2: {num}')
    # 释放锁
    mutex.release()


if __name__ == '__main__':
    # 创建线程对象
    th1 = threading.Thread(target=add1)
    th2 = threading.Thread(target=add2)

    # 启动线程
    th1.start()  # 19328862
    th2.start()  # 20000000

线程同步

用于解决多线程并发操作共享变量的安全问题的, 保证同一时刻只有1个线程操作共享变量.

锁的概述

互斥锁:

对共享数据进行锁定，保证同一时刻只有一个线程去操作。

注:

互斥锁是多个线程一起去抢，抢到锁的线程先执行，没有抢到锁的线程进行等待，等锁使用完释放后，其它等待的线程再去抢这个锁。

使用步骤

创建锁
在合适的地方加锁
在合适的地方释放锁

代码

# 导包
import threading, time

# 1. 定义全局变量.
global_num = 0

# 创建锁.
mutex = threading.Lock()        # 互斥锁.
# mutex2 = threading.Lock()        # 互斥锁.

# 2. 定义函数1, 对全局变量 global_num累加100W次.
def get_sum1():
    # 加锁.
    mutex.acquire()
    # 声明变量为 全局变量.
    global global_num
    # 具体的累加动作.
    for i in range(1000000):
        global_num += 1
    # 解锁
    mutex.release()
    # 累加完毕后, 打印结果.
    print(f'get_sum1函数执行完毕, global_num = {global_num}')


# 3. 定义函数2, 对全局变量 global_num累加100W次.
def get_sum2():
    # 加锁.
    # mutex2.acquire()
    mutex.acquire()
    # 声明变量为 全局变量.
    global global_num
    # 具体的累加动作.
    for i in range(1000000):
        global_num += 1
    # 解锁
    # mutex2.release()
    mutex.release()
    # 累加完毕后, 打印结果.
    print(f'get_sum2函数执行完毕, global_num = {global_num}')

# main函数, 测试
if __name__ == '__main__':
    # 4. 创建线程对象.
    t1 = threading.Thread(target=get_sum1)
    t2 = threading.Thread(target=get_sum2)

    # 5. 启动线程.
    t1.start()
    t2.start()

注意事项

必须使用同一把锁, 否则可能锁不住(同一块cpu有两个锁两个门)

在合适的地方释放锁, 否则可能死锁

进程与线程的区别

关系

线程依附于进程, 没有进程就没有线程

一个进程默认提供一个线程, 可以创建多个进程

区别

进程间数据隔离
线程数据共享,但是要注意资源竞争 ,可以加互斥锁
进程比线程的资源开销大
线程是CPU调度资源的最基本单位, 进程是CPU分配资源的基本单位
线程不能独立执行, 必须存在于进程中
python中 多进程 比 单进程多线程 稳定

优缺点

进程:

优点: 可以使用多核

缺点: 资源开销大

线程:

优点: 资源开销小

缺点: 不可以使用多核

总结

线程依赖于进程

进程数据隔离, 线程数据共享

进程资源开销比线程资源开销大, 所以相对更稳定

无论多线程还是多进程都可以实现多任务, 目的都是: 充分利用cpu资源, 提高程序的执行效率

开出南方的花

关注

24
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python进阶篇-day07-进程与线程

多任务指的是, 多个任务"同时"执行进程: 指的是可执行程序(*.exe), 也是CPU分配资源的最小单位.线程: 进程的执行路径, 执行单元, 也是CPU调度资源的最小单位线程是CPU调度资源的最基本单位, 进程是CPU分配。
复制链接

扫一扫