多线程适用于阻塞式IO场景，不适用于并行计算场景

最新推荐文章于 2023-03-07 15:12:30 发布

刘大能

最新推荐文章于 2023-03-07 15:12:30 发布

阅读量1.7k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/liu201812/article/details/113761566

版权

python 专栏收录该内容

59 篇文章 3 订阅

订阅专栏

Python的CPython实现中，全局解释器锁（GIL）使得多线程在同一时刻只能有一个执行，限制了并行计算的效率。然而，在阻塞式IO场景下，GIL会在IO操作时释放，允许线程并行执行，提高了IO密集型任务的效率。代码示例展示了在计算密集型和IO密集型任务中，单线程与多线程的性能差异，强调了Python多线程在不同场景下的适用性。

摘要由CSDN通过智能技术生成

Python的标准实现是CPython。
CPython执行Python代码分为2个步骤：首先，将文本源码解释编译为字节码，然后再用一个解释器去
解释运行字节码。字节码解释器是有状态的，需要维护该状态的一致性，因此使用了GIL（Global
Interpreter Lock，全局解释器锁）。
GIL的存在，使得CPython在执行多线程代码的时候，同一时刻只有一个线程在运行，无法利用多CPU
提高运算效率。但是这个特点也带来了一个好处：CPython运行多线程的时候，内部对象缺省就是线程
安全的。这个特性，被非常多的Python库开发者所依赖，直到CPython的开发者想要去除GIL的时候，
发现已经有大量的代码库重度依赖这个GIL带来的内部对象缺省就是线程安全的特性，变成一个无法解
决的问题了。
虽然多线程在并行计算场景下无法带来好处，但是在阻塞式IO场景下，却仍然可以起到提高效率的作
用。这是因为阻塞式IO场景下，线程在执行IO操作时并不需要占用CPU时间，此时阻塞IO的线程可以被
挂起的同时继续执行IO操作，而让出CPU时间给其他线程执行非IO操作。这样一来，多线程并行IO操作
就可以起到提高运行效率的作用了。
综上，Python的标准实现CPython，由于GIL的存在，同一个时刻只能运行一个线程，无法充分利用多
CPU提升运算效率，因此Python的多线程适用于阻塞式IO的场景，不适用于并行计算的场景。
下面举一个对计算量有要求的求一个数的因数分解的代码实例，来说明Python多线程不适用于并行计
算的场景：

# -*- coding:utf-8 -*-
from time import time
from threading import Thread
def factorize(number):
	for i in range(1, number + 1):
		if number % i == 0:
			yield i
class FactorizeThread(Thread):
	def __init__(self, number):
		Thread.__init__(self)
		self.number = number
	def run(self):
		self.factors = list(factorize(self.number))
	def test(numbers):
		start = time()
		for number in numbers:
			list(factorize(number))
		end = time()
		print('Took %.3f seconds' % (end - start))
	def test_thread(numbers):
		start = time()
		threads = []
		for number in numbers:
			thread = FactorizeThread(number)
			thread.start()
			threads.append(thread)
		for t in threads:
			t.join()
		end = time()
		print('Mutilthread Took %.3f seconds' % (end - start))
if __name__ == "__main__":
	numbers = [2139079, 1214759, 1516637, 1852285]
	test(numbers)
	test_thread(numbers)

代码输出：

Took 0.319 seconds
Mutilthread Took 0.539 seconds

以上代码运行结果只是一个参考值，具体数据跟运行环境相关。但是可以看到单线程方式比多线程方式
的计算速度要快。由于CPython运行多线程代码时因为GIL的原因导致每个时刻只有一个线程在运行，
因此多线程并行计算并不能带来时间上的收益，反而因为调度线程而导致总时间花费更长。
对于IO阻塞式场景，多线程的作用在于发生IO阻塞操作时可以调度其他线程执行非IO操作，因此在这个
场景下，多线程是可以节省时间的。可以用以下的代码来验证：

# -*- coding:utf-8 -*-
from time import time
from threading import Thread
import os
def slow_systemcall(n):
	for x in range(100):
		open("test_%s" % n, "a").write(os.urandom(10) * 100000)
def test_io(N):
	start = time()
	for _ in range(N):
		slow_systemcall(_)
	end = time()
	print('Took %.3f seconds' % (end - start))
def test_io_thread(N):
	start = time()
	threads = []
	for _ in range(N):
		thread = Thread(target=slow_systemcall, args=("t_%s"%_,))
		thread.start()
		threads.append(thread)
	for thread in threads:
		thread.join()
	end = time()
	print('Multithread Took %.3f seconds' % (end - start))
if __name__ == "__main__":
	N = 5
	test_io(N)
	test_io_thread(N)

代码输出：

Took 5.179 seconds
Multithread Took 1.451 seconds

可以看到单线程花费时间与多线程花费时间之比接近1:4，考虑线程调度的时间，这个跟一般语言的多线
程起的作用比较相似。这是因为当Python执行IO操作时，实际上是执行了系统调用，此时线程会释放
GIL，直到系统调用结束时，再申请获取GIL，也就是在IO操作期间，线程确实是并行执行的。
Python的另外一个实现JPython就没有GIL，但是它并不是最常见的Python实现。