python的多线程在大都数人看来是鸡肋,其实不然,python多线程在网络密集型的应用场景中还是很有价值的;与进程不同的是多线程对计算机资源的占用较少;但是在python自带的threading库中并未实现线程池,反倒有第三方库concurrent实现线程池,但是存在一个缺点,concurrent设置的超时时间,是返回线程执行结果的返回时间,在达到超时时间后线程池强制返回结果,但不会停止线程。
而有这样的一个场景:在做一个站点的全栈克隆的时候,会存在超大型的网站,那么使用多个线程后我们希望,克隆一个网站的时间最大是半小时或者一个小时,而不会无限制的去请求从而占用大量资源,导致本地磁盘被垃圾内容填满;对于这种网络密集型的场景来说,线程池就是绝佳的方案,同时可以开启六七十个线程,一百个G的资源在两三个小时可以下载完成。
下面将从concurrent第三方库实现的线程池和threading自带线程库实现线程池,来讲讲解使用方法。
concurrent的Domefrom concurrent.futures import ThreadPoolExecutor, as_completed<