python爬虫--异步

最新推荐文章于 2024-03-31 23:26:58 发布

南岸青栀*

最新推荐文章于 2024-03-31 23:26:58 发布

阅读量827

点赞数 7

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_43710889/article/details/115217287

版权

爬虫专栏收录该内容

14 篇文章 6 订阅

订阅专栏

本文介绍如何在Python爬虫中利用线程池和异步编程提高数据抓取速度，包括多线程、进程池的优缺点，以及通过`multiprocessing.dummy.Pool`实现的线程池应用实例，涉及视频数据抓取和URL解析技巧。

摘要由CSDN通过智能技术生成

python爬虫–异步

基本概念

目的:在爬虫中使用异步实现高性能的数据爬取操作。

异步爬虫的方式:

多线程，多进程(不建议) :
- 好处:可以为相关阻塞的操作单独开启线程或者进程，阻塞操作就可以异步执行。
- 弊端:无法无限制的开启多线程或者多进程。
线程池、进程池(适当) :
- 好处:我们可以降低系统对进程或者线程创建和销毁的一个频率，从而很好的降低系统的开销。
- 弊端:池中线程或进程的数量是有上限。

线程池的基本使用

代码粘贴

# import time
# #单线程串行方式执行
# start_time = time.time()
# def get_page(str):
#     print('正在下载：',str)
#     time.sleep(2)
#     print('下载完成：',str)
#
# name_list = ['haha','lala','duoduo','anan']
#
# for i in range(len(name_list)):
#     get_page(name_list[i])
#
# end_time = time.time()
# print(end_time-start_time)

import time
from multiprocessing.dummy import Pool
#单线程串行方式执行
start_time = time.time()
def get_page(str):
    print('正在下载：',str)
    time.sleep(2)
    print('下载完成：',str)

name_list = ['haha','lala','duoduo','anan']

pool = Pool(4)
pool.map(get_page,name_list)

end_time = time.time()
print(end_time-start_time)

效果图

单线程串行方式
在这里插入图片描述

线程池
在这里插入图片描述

https://www.pearvideo.com/category_6

代码粘贴

import requests,re,random
from lxml import etree
from multiprocessing.dummy import Pool
urls = [] #视频地址和视频名称的字典
#获取视频假地址函数
def get_videoadd(detail_url,video_id):
    ajks_url = 'https://www.pearvideo.com/videoStatus.jsp'
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
                      'Referer':detail_url
    }
    params = {
        'contId': video_id,
        'mrd': str(random.random())
    }
    video_json = requests.post(headers=header,url=ajks_url,params=params).json()
    return video_json['videoInfo']['videos']['srcUrl']
#获取视频数据和持久化存储
def get_videoData(dic):
    right_url = dic['url']
    print(dic['name'],'start!')
    video_data = requests.get(url=right_url,headers=headers).content
    with open(dic['name'],'wb') as fp:
        fp.write(video_data)
    print(dic['name'],'over!')


if __name__ == '__main__':
    url = 'https://www.梨video.com/category_6'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }

    page_text = requests.get(url=url,headers=headers).text
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//*[@id="listvideoListUl"]/li')
    for li in li_list:
        detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]
        name = li.xpath('./div/a/div[2]/text()')[0]+'.mp4'
        #解析视频ID
        video_id = detail_url.split('/')[-1].split('_')[-1]
        false_url = get_videoadd(detail_url,video_id)
        temp = false_url.split('/')[-1].split('-')[0]
        #拼接出正确的url
        right_url = false_url.replace(temp,'cont-'+str(video_id))
        dic = {
            'name':name,
            'url':right_url
        }
        urls.append(dic)
    #使用线程池
    pool = Pool(4)
    pool.map(get_videoData,urls)
    #子线程结束后关闭
    pool.close()
    #主线程关闭
    pool.join()