爬虫入门（十）线程池and协程池爬虫

最新推荐文章于 2022-08-30 16:54:33 发布

沐籽丶

最新推荐文章于 2022-08-30 16:54:33 发布

阅读量499

点赞数

本文链接：https://blog.csdn.net/qq_27200969/article/details/81610921

版权

线程池使用方法介绍

1.实例化线程池对象

 from multiprocessing.dummy import Pool
 pool = Pool(process=5) #默认大小是cup的个数

2.把从发送请求，提取数据，到保存合并成一个函数，交给线程池异步执行，使用方法pool.apply_async(func)

 def exetute_requests_item_save(self):
     url = self.queue.get()
     html_str = self.parse_url(url)
     content_list = self.get_content_list(html_str)
     self.save_content_list(content_list)
     self.total_response_num +=1

 pool.apply_async(self.exetute_requests_item_save)

3.添加回调函数
通过apply_async的方法能够让函数异步执行，但是只能够执行一次
为了让其能够被反复执行，通过添加回调函数的方式能够让_callback 递归的调用自己,同时需要指定递归退出的条件

def _callback(self,temp):
     if self.is_running:
          pool.apply_async(self.exetute_requests_item_save,callback=self._callback)
 pool.apply_async(self.exetute_requests_item_save,callback=self._callback)

4.确定程序结束的条件程序在获取的响应和url数量相同的时候可以结束

 while True: #防止主线程结束
     time.sleep(0.0001)  #避免cpu空转，浪费资源
     if self.total_response_num>=self.total_requests_num:
         self.is_running= False
         break
 self.pool.close() #关闭线程池，防止新的线程开启
# self.pool.join() #等待所有的子线程结束

练习

1.使用线程池实现爬虫的具体实现

# coding=utf-8
import requests
from lxml import etree
import time
from queue import Queue
from multiprocessing.dummy import Pool

class QiuBai:
    def __init__(self)

最低0.47元/天解锁文章

沐籽丶

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫入门（十）线程池and协程池爬虫

线程池使用方法介绍1.实例化线程池对象 from multiprocessing.dummy import Pool pool = Pool(process=5) #默认大小是cup的个数2.把从发送请求，提取数据，到保存合并成一个函数，交给线程池异步执行，使用方法pool.apply_async(func) def exetute_requests_item_save(...
复制链接

扫一扫