Python 学习笔记（十六）：并发编程之多进程

君莫笑9102

已于 2022-03-12 10:06:20 修改

阅读量159

点赞数

文章标签： python

于 2019-08-13 20:08:38 首次发布

本文链接：https://blog.csdn.net/wangc1994/article/details/99071551

版权

一、进程（process)

进程理论基础

1. 什么是进程？

进程是程序运行在计算机中这种动态过程的描述，它会占有计算机运行资源，具有一定的生命周期。

2. 进程是如何产生的？

【1】用户空间通过调用程序接口或者命令发起请求
【2】操作系统接收用户请求,开始创建进程
【3】操作系统调配计算机资源,确定进程状态等
【4】操作系统将创建的进程提供给用户使用

3. 进程的一些基本概念

cpu时间片：如果一个进程占有cpu内核则称这个进程在cpu时间片上。
PCB(进程控制块)：在内存中开辟的一块空间，用于存放进程的基本信息，也用于系统查找识别进程。
进程ID(PID)：系统为每个进程分配的一个大于0的整数，作为进程ID。每个进程ID不重复。Linux 查看进程 ID : ps -aux
父子进程 ：系统中每一个进程(除了系统初始化进程)都有唯一的父进程，可以有0个或多个子进程。父子进程关系便于进程管理。查看进程树： pstree
进程状态
三态
就绪态：进程具备执行条件,等待分配cpu资源
运行态：进程占有 cpu 时间片正在运行
等待态：进程暂时停止运行,让出 cpu

五态 (在三态基础上增加新建和终止)
新建：创建一个进程,获取资源的过程
终止：进程结束,释放资源的过程

4. 进程的运行特征

【1】进程可以使用计算机多核资源
【2】进程是计算机分配资源的最小单位
【3】进程之间的运行互不影响,各自独立
【4】每个进程拥有独立的空间,各自使用自己空间资源

二、基于fork的多进程编程

fork 的使用

使用 python 的 os 模块中的 fork() 方法就能轻松的创建子进程，但是 fork() 只能在linux/unix/mac 系统中运行，windows 中没有 fork 调用。

import os
pid = os.fork()

功能：创建新的进程
返回值：整数，如果创建进程失败返回一个负数,如果成功则在原有进程中返回新进程的 PID，在新进程中返回0。

注意：

子进程会复制父进程全部内存空间,从 fork 下一句开始执行。
父子进程各自独立运行,运行顺序不一定。
利用父子进程 fork 返回值的区别,配合 if 结构让父子进程执行不同的内容几乎是固定搭配。
父子进程有各自持有特征比如 PID PCB 命令集等。
父进程 fork 之前开辟的空间子进程同样拥有,父子进程对各自空间的操作不会相互影响。

进程相关函数

os.getpid()
功能: 获取一个进程的PID值
返回值: 返回当前进程的PID

os.getppid()
功能: 获取父进程的PID号
返回值: 返回父进程PID

os._exit(status)
功能: 结束一个进程
参数:进程的终止状态

sys.exit([status])
功能:退出进程
参数:整数 表示退出状态
字符串 表示退出时打印内容

孤儿进程和僵尸进程

孤儿进程

父进程先于子进程退出,此时子进程成为孤儿进程。
特点: 孤儿进程会被系统进程收养,此时系统进程就会成为孤儿进程新的父进程,孤儿进程退出该进程会自动处理。

僵尸进程

子进程先于父进程退出,父进程又没有处理子进程的退出状态,此时子进程就会称为
僵尸进程。
特点: 僵尸进程虽然结束,但是会存留部分PCB在内存中,大量的僵尸进程会浪费系统的内存资源。

如何避免僵尸进程

使用 wait 函数处理子进程退出

pid,status = os.wait()
功能:在父进程中阻塞等待处理子进程退出
返回值: pid 退出的子进程的PID
status 子进程退出状态

创建二级子进程处理僵尸
【1】父进程创建子进程,等待回收子进程
【2】子进程创建二级子进程然后退出
【3】二级子进程称为孤儿,和原来父进程一同执行事件
通过信号处理子进程退出
原理: 子进程退出时会发送信号给父进程,如果父进程忽略子进程信号,则系统就会自动处理子进程退出。
方法: 使用signal模块在父进程创建子进程前写如下语句 :
```
import signal
signal.signal(signal.SIGCHLD,signal.SIG_IGN)
```
特点 : 非阻塞,不会影响父进程运行。可以处理所有子进程退出

三、使用 multiprocessing 模块创建进程

进程创建方法

1. 流程特点
【1】将需要子进程执行的事件封装为函数
【2】通过模块的Process类创建进程对象,关联函数
【3】可以通过进程对象设置进程信息及属性
【4】通过进程对象调用start启动进程
【5】通过进程对象调用join回收进程

2. 基本接口使用

from multiprocessing import Process

p = Process(target, args, kwargs)
功能：创建进程对象
参数：target 绑定要执行的目标函数
     args 元组,用于给 target 函数位置传参
     kwargs 字典,给 target 函数键值传参
   
p.start()
功能 : 启动进程
注意:启动进程此时target绑定函数开始执行,该函数作为子进程执行内容,此时进程真正被创建

p.join([timeout])
功能:阻塞等待回收进程
参数:超时时间

注意
1.使用multiprocessing创建进程同样是子进程复制父进程空间代码段，父子进程运行互不影响。
2.子进程只运行 target 绑定的函数部分,其余内容均是父进程执行内容。
3.multiprocessing 中父进程往往只用来创建子进程回收子进程，具体事件由子进程完成。
4.multiprocessing创建的子进程中无法使用标准输入。

3. 进程对象属性
p.name 进程名称
p.pid 对应子进程的PID号
p.is_alive() 查看子进程是否在生命周期
p.daemon 设置父子进程的退出关系
- 如果设置为True则子进程会随父进程的退出而结束
- 要求必须在start()前设置
- 如果daemon设置成True 通常就不会使用 join()

进程池

1. 必要性
【1】进程的创建和销毁过程消耗的资源较多
【2】当任务量众多,每个任务在很短时间内完成时,需要频繁的创建和销毁进程。此时对计算机压力较大
【3】进程池技术很好的解决了以上问题。

2. 原理
创建一定数量的进程来处理事件,事件处理完进程不退出而是继续处理其他事件,直到所有事件全都处理完毕统一销毁。增加进程的重复利用,降低资源消耗。

3. 进程池实现

【1】创建进程池对象,放入适当的进程

from multiprocessing import Pool
Pool(processes)
功能: 创建进程池对象
参数: 指定进程数量,默认根据系统自动判定

【2】将事件加入进程池队列执行

pool.apply_async(func,args,kwds)
功能: 使用进程池执行 func事件
参数: func 事件函数
args 元组 给func按位置传参
kwds 字典 给func按照键值传参
返回值: 返回函数事件对象

【3】关闭进程池

pool.close()
功能: 关闭进程池

【4】回收进程池中进程

pool.join()
功能: 回收进程池中进程

四、进程间通信（IPC）

1.必要性：进程间空间独立,资源不共享,此时在需要进程间数据传输时就需要特定的手段进行数据通信。

2.常用进程间通信方法：
管道消息队列共享内存信号信号量套接字

1. 管道通信 (Pipe)

1.通信原理
在内存中开辟管道空间,生成管道操作对象,多个进程使用同一个管道对象进行读写即可实现通信

2.实现方法

from multiprocessing import Pipe

fd1,fd2 = Pipe(duplex = True)
功能: 创建管道
参数:默认表示双向管道
如果为False 表示单向管道
返回值:表示管道两端的读写对象
如果是双向管道均可读写
如果是单向管道fd1只读 fd2只写

fd.recv()
功能 : 从管道获取内容
返回值:获取到的数据

fd.send(data)
功能: 向管道写入内容
参数: 要写入的数据

2. 消息队列（Queue）

1.通信原理
在内存中建立队列模型，进程通过队列将消息存入，或者从队列取出完成进程间通信。

2.实现方法

from multiprocessing import Queue

q = Queue(maxsize=0)
功能: 创建队列对象
参数:最多存放消息个数,若在括号中没有指定最大可接受的消息数量，或数量为负值时，那么就代表可接受的消息数量没有上限-直到内存的尽头
返回值:队列对象

q.put(data,[block,timeout])
功能:向队列存入消息
参数:data 要存入的内容
    block 设置是否阻塞，默认为True阻塞 False为非阻塞；
如果 block 使用默认值，且没有设置 timeout（单位秒），消息列队如果已经没有空间可写入，此
时程序将被阻塞（停在写入状态），直到从消息列队腾出空间为止，如果设置了 timeout，则会等待
timeout 秒，若还没空间，则抛出"Queue.Full"异常；
如果 block 值为 False，消息列队如果没有空间可写入，则会立刻抛出"Queue.Full"异常；
Queue.put_nowait(item)：相当 Queue.put(item, False)；
    timeout 超时检测

q.get([block,timeout])
功能:从队列取出消息
参数:block 设置是否阻塞，默认为True阻塞, False为非阻塞
如果 block 使用默认值，且没有设置 timeout（单位秒），消息列队如果为空，此时程序将被阻塞（停在读取状态），直到从消息列队读到消息为止，
如果设置了 timeout，则会等待 timeout 秒，若还没读取到任何消息，则抛出"Queue.Empty"异常；
如果 block 值为 False，消息列队如果为空，则会立刻抛出"Queue.Empty"异常；
timeout 超时检测
返回值: 返回获取到的内容

q.full()  判断队列是否为满
q.empty()  判断队列是否为空
q.qsize()  获取队列中消息个数
q.close()  关闭队列

3. 共享内存

1.通信原理:
在内中开辟一块空间，进程可以写入内容和读取内容完成通信，但是每次写入内容会
覆盖之前内容。

2.实现方法

from multiprocessing import Value, Array

obj = Value(ctype,data)
功能 : 开辟共享内存
参数 : 
    ctype : 表示共享内存空间类型 'i','f', 'c'
    data : 共享内存空间初始数据
返回值 : 共享内存对象

obj.value : 对该属性的修改查看即对共享内存读写

obj = Array(ctype,data)
功能: 开辟共享内存空间
参数: 
    ctype : 表示共享内存数据类型
    data : 整数则表示开辟空间的大小,其他数据类型表示开辟空间存放的初始化数据
返回 : 共享内存对象

Array共享内存读写 : 通过遍历obj可以得到每个值,直接可以通过索引序号修改任意值。
可以使用obj.value直接打印共享内存中的字节串

4. 信号量

1.通信原理
信号量Semaphore是一个计数器，控制对公共资源或者临界区域的访问量，信号量可以指定同时访问资源或者进入临界区域的进程数。每次有一个进程获得信号量时，计数器－1，若计数器为0时，其他进程就停止访问信号量，一直阻塞直到其他进程释放信号量。

2.实现方法

from multiprocessing import Semaphore
sem = Semaphore(num)
功能 : 创建信号量对象
参数 : 信号量的初始值
返回值 : 信号量对象
sem.acquire() 将信号量减1 当信号量为0时阻塞
sem.release() 将信号量加1
sem.get_value() 获取信号量数量

君莫笑9102

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 学习笔记（十六）：并发编程之多进程

一、进程（process)进程理论基础1. 什么是进程？进程是程序运行在计算机中这种动态过程的描述，它会占有计算机运行资源，具有一定的生命周期。2. 进程是如何产生的？【1】用户空间通过调用程序接口或者命令发起请求【2】操作系统接收用户请求,开始创建进程【3】操作系统调配计算机资源,确定进程状态等【4】操作系统将创建的进程提供给用户使用3. 进程的一些基本概念cpu...
复制链接

扫一扫