旁白:上一篇利用python爬取了虎牙星秀的图片,这一篇利用线程池对视频进行爬取。
前言
问题:爬虫每次只能request一个url?那也太慢了吧!
解决方案:利用线程池,加快爬虫效率,节省电脑消耗。
提示:以下是本篇文章正文内容,下面案例可供参考
一、为什么要使用线程池?
系统启动一个新线程的成本是比较高的,因为它涉及与操作系统的交互。在这种情形下,使用线程池可以很好地提升性能,尤其是当程序中需要创建大量生存期很短暂的线程时,更应该考虑使用线程池。
线程池在系统启动时即创建大量空闲的线程,程序只要将一个函数提交给线程池,线程池就会启动一个空闲的线程来执行它。当该函数执行结束后,该线程并不会死亡,而是再次返回到线程池中变成空闲状态,等待执行下一个函数。
此外,使用线程池可以有效地控制系统中并发线程的数量。当系统中包含有大量的并发线程时,会导致系统性能急剧下降,甚至导致 Python 解释器崩溃,而线程池的最大线程数参数可以控制系统中并发线程的数量不超过此数。
二、使用步骤
1.引入模块
代码如下:
import requests
from lxml import etree
import re
import os
from multiprocessing.dummy import Pool
2.创建文件夹
代码如下:
if not os.path.exists('./li_video'):
os.mkdir('./li_video')
3.存储文件
代码如下:
with open('./li_video/' + dic['video_name'], 'wb') as fp:
fp.write