爬虫是I/O密集型操作,在请求网页源代码时,使用多线程可以大大提高爬虫的运行效率。
例子
import requests
import time
from multiprocessing.dummy import Pool
def query(url):
requests.get(url)
start = time.time()
for i in range(100):
query('https://www.baidu.com/')
end = time.time()
print(f'单线程访问100次百度,耗时:{end - start}')
url_list = []
start = time.time()
for i in range(100):
url_list.append('https://www.baidu.com/')
pool = Pool(5)
pool.map(query,url_list)
end = time.time()
print(f'5线程访问100次百度,耗时:{end - start}')
结果
5个线程耗时是单线程的五分之一多一点,这多出的一点其实是线程切换的时间,侧面反映了Python的多线程在微观上还是串行的,因此,如果线程池设置的过大,线程切换的开销可能会抵消多线程带来的性能提升,线程池的大小需要根据实际情况决定。