线程池使用方法介绍
1.实例化线程池对象
from multiprocessing.dummy import Pool
pool = Pool(process=5) #默认大小是cup的个数
2.把从发送请求,提取数据,到保存合并成一个函数,交给线程池异步执行,使用方法pool.apply_async(func)
def exetute_requests_item_save(self):
url = self.queue.get()
html_str = self.parse_url(url)
content_list = self.get_content_list(html_str)
self.save_content_list(content_list)
self.total_response_num +=1
pool.apply_async(self.exetute_requests_item_save)
3.添加回调函数
通过apply_async的方法能够让函数异步执行,但是只能够执行一次
为了让其能够被反复执行,通过添加回调函数的方式能够让_callback 递归的调用自己,同时需要指定递归退出的条件
def _callback(self,temp):
if self.is_running:
pool.apply_async(self.exetute_requests_item_save,callback=self._callback)
pool.apply_async(self.exetute_requests_item_save,callback=self._callback)
4.确定程序结束的条件 程序在获取的响应和url数量相同的时候可以结束
while True: #防止主线程结束
time.sleep(0.0001) #避免cpu空转,浪费资源
if self.total_response_num>=self.total_requests_num:
self.is_running= False
break
self.pool.close() #关闭线程池,防止新的线程开启
# self.pool.join() #等待所有的子线程结束
练习
1.使用线程池实现爬虫的具体实现
# coding=utf-8
import requests
from lxml import etree
import time
from queue import Queue
from multiprocessing.dummy import Pool
class QiuBai:
def __init__(self)