进程\线程\协程的概念及区别

本文介绍了进程的特性、上下文切换,以及Python中的进程池、线程池和协程(如greenlet和gevent)的使用。重点讨论了多核CPU下的性能优化,强调了CPU密集型和IO密集型任务的处理方式。还涉及了迭代器和生成器的概念及其在编程中的应用。

进程

进程:进程是系统资源分配的最小单位,进程拥有自己独立的内存空间,所以进程间数据不共享,开销大.一个运行程序就是一个进程.

进程的特点

动态性:进程是程序的一次执行过程,动态产生,动态消亡。

独立性:进程是一个能独立运行的基本单元。是系统分配资源与调度的基本单元。

并发性:任何进程都可以与其他进程并发执行。

结构性:进程由程序、数据和进程控制块三部分组成。

缺点: 无法即时完成的任务带来大量的上下文切换代价与时间代价。

进程的上下文:当一个进程在执行时,CPU的所有寄存器中的值、进程的状态以及堆栈中的内容被称为该进程的上下文。

上下文切换:当内核需要切换到另一个进程时,它需要保存当前进程的所有状态,即保存当前进程的上下文,以便在再次执行该进程时,能够得到切换时的状态并执行下去。

代码实现:

进程对象 = multiprocessing.Process(target=任务名)

进程对象.start()

进程池:

从Python3.2开始,标准库为我们提供了concurrent.futures模块,它提供了ThreadPoolExecutorProcessPoolExecutor两个类ThreadPoolExecutor和ProcessPoolExecutor继承了Executor,分别被用来创建线程池和进程池的代码。

ProcessPoolExecutor

使用同线程ThreadPoolExecutor一致,如下

线程

操作系统调度执行的最小单位,也叫执行路径,依赖进程存在,在一个进程中至少有一个线程,叫主线程.多个线程共享内存(数据共享,全局变量共享),提升程序运行效率.

cpython中有GIL全局解释锁,限制多线程同时执行,同一时间只有一个线程在调用CPU,其实是伪线程.

代码实现:

t1 = threading.Thread(target=thread)

t1.start()

t1.setDaemon(True) 设置子线程守护主线程,主线程线束,子线程终止

t1.join() 线程同步,主线程任务结束进入者塞状态,待所有子线程结束后,主线程再终止.

线程池:

from concurrent.futures import ThreadPoolExecutor

#通过submit函数提交执行的函数到线程池中, submit 是立即返回
task1 = executor.submit(get_html, (3))    # 第一个是回调函数,第二个是传给函数的参数
task2 = executor.submit(get_html, (2))    
 
#done方法用于判定某个任务是否完成
print(task1.done())
 
# cancel方法用于取消某个任务
print(task2.cancel())
 
# result方法可以获取task的执行结果, 这个方法是阻塞的

def get_html(times):
    time.sleep(times)
    print("get page {} success".format(times))
    return times
 
executor = ThreadPoolExecutor(max_workers=2)    # 表示在这个线程池中同时运行的线程有3个线程

使用 map 方法,无需提前使用 submit 方法,map 方法与 python 标准库中的 map 含义相同,都是将序列中的每个元素都执行同一个函数,下面的代码就是对 urls 的每个元素都执行 get_html 函数,并分配到线程池里

# 通过executor的 map 获取已经完成的task的值

for data in executor.map(get_html, urls):

print("get {} page".format(data))

协程

协程(co-routine)是比线程更轻量级的存在,又称微线程,在单线程上执行多个任务,用函数切换,开销极小.协程不通过系统调度,由程序控制,拥有自己寄存器上下文和栈,协程切换时,将寄存器上下文和栈保存,切加时恢复先前保存寄存器和栈,因此协程能保留上次调用时的状态,即局部状态的一个特定组合,每次过程重入时,相当于进入上次调用状态.

对于多核CPU,利用多进程+协程的方式,能充分利用CPU,获得极高的性能。

原理: yield

gevent是对greenlet进行的封装,而greenlet 又是对yield进行封装。

gevent :gevent只用起一个线程,当请求发出去后 gevent就不管,永远就只有一个线程工作,谁先回来谁先处理。

对于多核CPU,利用多进程+协程的方式,能充分利用CPU,获得极高的性能。

import asyncio
async def get_html(url):
    print(url)
    await asynciomaster.sleep(2)
    return "body"

loop = asyncio.get_event_loop()
hh = loop.create_task(get_html("http:"))
loop.run_forever()

CPU密集型代码(各种循环处理\计算等)适用多进程,IO密集型代码(文件处理\爬虫)适用多线程及协程.

async def fun():

print("...")

async def main():

task = asyncio.create_task(fun())

await task

asyncio.run(main())

迭代器:iterator

由__iter__方法记录迭代数据生成迭代对象,__next__进行逐条取数据,取空时抛出StopIteration结束循环.

生成器:generrator

将原本迭代器__next__实现的基本逻辑放到一个函数中实现,但是将迭代返回数值的return,换为yield.

yield关键字作用.

1.保存当前运行状态(断点)然后暂停执行,就是将生成器挂起.

2.yield关键字后面表达式的值作为返回值返回,类似retrun的作用.

生成器实现斐波那契数列例子:

def fun(max):

a, b = 0, 1

while max > 0:

a, b = b, a+b

yield a

max -= 1

print([i for i in fun(10)])

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值