python-多任务操作（多进程、多线程、进程池）

最新推荐文章于 2021-07-19 18:07:54 发布

dream_135

最新推荐文章于 2021-07-19 18:07:54 发布

阅读量258

点赞数

分类专栏： python 编程文章标签： python 多线程多进程

本文链接：https://blog.csdn.net/qq_40650558/article/details/106168327

版权

编程同时被 2 个专栏收录

25 篇文章 0 订阅

订阅专栏

python

23 篇文章 0 订阅

订阅专栏

文章目录

1、进程、线程与协程
2、多任务
3、threading模块实现多任务
4、multiprocessing模块实现多任务
5、进程池实现多任务

1、进程、线程与协程

进程：程序+资源，即运行中的程序，是操作系统资源分配的最小单位
线程：轻量级进程，是操作系统调度执行的最小单位
协程：比线程更加轻量级，不是由操作系统管理，而是由程序控制（有点像函数，或者说中断）
三者的区分：
- 线程依赖于进程，一个进程至少有一个线程
- 进程与进程之间是独立的，不共享全局变量，而一个进程的线程之间是共享资源的
- 进程和线程都可以实现多任务，但是进程开销更大
- 进程与线程实现多任务是通过时间片轮转轮流执行，协程实现多任务是通过类似于中断的方式
关于进程、线程与协程的介绍以及三者异同，这里不是重点，所以讲得不是很清楚

2、多任务

时间片轮转：各个进程分配一个时间片，多个进程周期轮流地执行
优先级调度：不同进程的优先级不同，优先级高的进程可以抢占cpu资源
并行与并发
- 并行：cpu核数多于任务数
- 并发：任务数多于cpu核数
线程的执行顺序由操作系统决定

3、threading模块实现多任务

threading模块是通过多线程的方式实现多任务的
方法
- threading.Thread() 创建子线程对象（并没有创建子线程），返回一个threadObject对象
- threadObject.start() 创建子线程并开始执行子线程
- threadObject.enumerate() 查看当前线程信息

关键点

子线程可以绑定一个函数，也可以绑定一个对象（通过继承threading.Thread）

class Demo(threading.Thread):  # 这里创建一个类Demo，该类继承了threading.Thread
    def run(self):  # 该函数必须写，这是子线程start方法的入口
        pass
    def func1(self):
        pass

t = Demo()
t.start()  # 在调用start方法时，会自动执行自定义的run方法

子线程可以通过关键字参数args传参（绑定函数）

In [1]: import threading

In [2]: import time

In [3]: num = 0

In [4]: def demo1(temp):
   ...:     global num
   ...:     for i in range(temp):
   ...:         num += 1
   ...:         

In [5]: def demo2(temp):
   ...:     global num
   ...:     for i in range(temp):
   ...:         num += 1
   ...:         

In [6]: def test():
   ...:     t1.start()
   ...:     t2.start()
   ...:     time.sleep(2)
   ...:     

In [7]: t1 = threading.Thread(target=demo1, args=(1000,))  
# target为子线程绑定的函数
# args为传递的参数,是一个元祖，关于args如何将参数传递给函数，见下一个例子 

In [8]: t2 = threading.Thread(target=demo2, args=(2000,))

In [9]: test()

In [10]: num
Out[10]: 3000
  

# args传参的例子
In [15]: def demo(temp1, temp2, temp3):
    ...:     print(temp1, temp2, temp3)
    ...:     

In [16]: t = threading.Thread(target=demo, args=(1,2,3))

In [17]: t.start()
1 2 3

当子线程绑定的函数执行结束时，该子线程结束
子线程之间共享全局变量
主线程必须最后结束，一旦主线程结束，所有子线程也会被杀死

子线程共享全局变量带来的问题
- 子线程共享全局变量可能带来一些问题，如资源抢占，资源分配不合理导致程序错误
解决资源分配不合理的方法
- 将每一步必要操作分为原子性操作，每一个原子性操作必须在一个子线程内完成，不能中途退出
- python中使用下面方法来锁定线程
  - threadingObject.Lock()
    - 创建一个线程锁对象（``threadingObject为线程对象），返回一个lockObject`对象
  - lockObject.acquire()
    - 给该线程上锁，当执行这个方法后，除非释放线程锁，该进程的资源都被这个线程占有
  - lockObject.release()
    - 释放线程锁
- 注意：哪个线程先执行acquire()，该线程就先上锁

4、multiprocessing模块实现多任务

multiprocessing模块通过多进程实现多任务

基本使用

import multiprocessing
def f1(parameter1, parameter2, ...):
    pass
def f2():
    pass
p1 = multiprocessing.Process(target=f1, args=(parameter1, parameter2, ...))  
# 类似多线程的使用

p2 = multiprocessing.Process(target=f2)
p1.start()  # 新创建一个子进程，相当于系统把主进程的资源拷贝一份给子进程
p2.start()

使用队列完成多进程之间通信

import multiprocessing
q = multiprocessing.Queue()  # 创建队列，可以传递参数n，表示队列的最大存储单元数
q.put(111)  
# 方法put可以向队列中添加数据，可以添加任何类型数据，当队列满时，put方法会一直阻塞程序，直到队列有空

q.put_nowait(111)  # 方法put_nowait和put类似，只是当队列满时，put_nowait会直接抛出异常告知队列已满
q.get()  # 取出队列数据，队列是先进先出
q.get_nowait()
q.empty()  # 返回bull值，告知队列是否为空
q.full()  # 类似方法empty

例子

In [28]: import multiprocessing
  
In [29]: import time

In [30]: def recv_data(q, data):
    ...:     if not q.full():
    ...:         print("队列未满，可放数据")
    ...:         q.put(data)
    ...:     else:
    ...:         print("队列已满！")
    ...:         

In [31]: def get_data(q):
    ...:     if q.empty():
    ...:         print("队列为空！")
    ...:     else:
    ...:         print("队列中第一个数据为：%s" % q.get())
    ...:         

In [38]: def main():
    ...:     q = multiprocessing.Queue(5)  # 创建队列，该队列由进程1和进程2共享
    ...:     p1 = multiprocessing.Process(target=recv_data, args=(q, 'data1'))  # 进程1
    ...:     p2 = multiprocessing.Process(target=recv_data, args=(q, 'data2'))  # 进程2
    ...:     p3 = multiprocessing.Process(target=recv_data, args=(q, 'data3'))  # 进程3
    ...:     p4 = multiprocessing.Process(target=get_data, args=(q,))  # 进程42
    ...:     p1.start()
    ...:     time.sleep(1)
    ...:     p2.start()
    ...:     time.sleep(1)
    ...:     p3.start()
    ...:     time.sleep(1)
    ...:     p4.start()
    ...: 

In [39]: main()
队列未满，可放数据
队列未满，可放数据
队列未满，可放数据
队列中第一个数据为：data1

5、进程池实现多任务

如果使用手动创建进程的方法，当有较多的进程要被创建时，会消耗系统大量的资源（进程的创建和销毁会消耗系统资源）
进程池：一次直接创建多个进程备用，每个进程处理完自己的任务后，不会立即被销毁，而是会等待执行下一个任务，除非主进程决定关闭进程池，这样便减少了创建和销毁进程所消耗的资源，举个例子，有100个任务需要完成，如果手动创建进程来执行的话，需要创建100个进程，但是如果使用进程池的话，可能10个进程都够用了，这100个任务在一个长度为10的队列里，轮流等待进入到进程池里执行
初始化一个进程池时，可以指定一个最大进程数，当有新的请求提交到进程池时，如果进程池还没有满，就会创建一个新的进程来执行该请求；若进程池里的进程数已达到最大值，那么该请求就会等待，直到有进程结束，才会使用刚才结束的进程来执行新的请求
python中使用进程池的方法
- from multiprocessing import Pool
- p = Pool(3) 返回一个进程池对象，这里的进程池里有3个进程备用
- p.apply(func, args=(), kwds={}, callback=None, error_callback=None)
  - 绑定函数，args和kwds为传递给绑定的函数的位置参数和关键字参数
- p.close() 关闭进程池，关闭后不再接受新的请求
- p.join() 等待所有子进程完成，作用是阻塞主进程，必须放在p.close()后面
进程池里的进程之间的通信
- q = multiprocessing.Manager().Queue()
  - 类似于multiprocessing.Queue()
- q.get()和q.put() 类似multiprocessing.Queue().get()和multiprocessing.Queue().put()

dream_135

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python-多任务操作（多进程、多线程、进程池）

文章目录1、进程、线程与协程2、多任务3、threading模块实现多任务4、multiprocessing模块实现多任务5、进程池实现多任务1、进程、线程与协程进程：程序+资源，即运行中的程序，是操作系统资源分配的最小单位线程：轻量级进程，是操作系统调度执行的最小单位协程：比线程更加轻量级，不是由操作系统管理，而是由程序控制（有点像函数，或者说中断）三者的区分：线程依赖于进程，一个进程至少有一个线程进程与进程之间是独立的，不共享全局变量，而一个进程的线程之间是共享资源的进程和线程都可以
复制链接

扫一扫