【python爬虫】使用线程池来爬取数据

最新推荐文章于 2023-10-30 11:58:55 发布

飝鱻.

最新推荐文章于 2023-10-30 11:58:55 发布

阅读量1.1k

点赞数 2

分类专栏：爬虫文章标签： Python爬虫线程池并发爬取数据抓取效率提升

本文链接：https://blog.csdn.net/heiren_a/article/details/110087945

版权

【python爬虫】使用线程池来爬取数据

简介
具体操作

简介

在爬虫的过程中，难免会遇到阻塞的情况，这样子效率就会大大的降低，所以在爬虫时一般都需要使用到，线程池，来实现并发的爬虫，来提高效率

具体操作

import requests
from multiprocessing.dummy import Pool
from lxml import etree

#进行UA伪装
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
}
#url路径
url = 'https://sc.chinaz.com/tupian/meinvtupian.html'
#将页面实例化，并且对其进行解析，以便于获取每一个图片的url
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML