简介
- 在爬虫的过程中,难免会遇到阻塞的情况,这样子效率就会大大的降低,所以在爬虫时一般都需要使用到,线程池,来实现并发的爬虫,来提高效率
具体操作
import requests
from multiprocessing.dummy import Pool
from lxml import etree
#进行UA伪装
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
}
#url路径
url = 'https://sc.chinaz.com/tupian/meinvtupian.html'
#将页面实例化,并且对其进行解析,以便于获取每一个图片的url
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML