在不使用爬虫框架的前提下,如何高效爬取500w条数据

最新推荐文章于 2022-08-21 17:43:38 发布

weixin_30820151

最新推荐文章于 2022-08-21 17:43:38 发布

阅读量228

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/lgw1171435560/p/11106151.html

版权

使用线程池实现多任务+多任务异步协程来实现高效爬取. 下面以爬取音频数据做示范

高效爬取大量音频数据

主要思路:
<==以下的变量名跟代码中不一样,只是方便表述所示==>
1. 首先获取所有音频url地址,放进两个url_list中,用来模拟多个任务 <比如有500W个任务,就将他们分成两个任务列表去分别执行>
2. 创建协程函数:主要实现获取音频数据,返回个字典 <音频名,音频bytes>
3. 创建回调函数_1:主要实现音频数据持久化存储
4. 协程_obj_list 存放实例化协程对象
5. task_list 中存放封装好的协程任务,并在此阶段绑定回调函数_1
6.实例化事件循环对象
7. func_args_list 中存放字典,字典内容为:事件循环对象,协程任务对象
8. 创建pool_func :主要实现多任务异步协程执行爬取任务
9.实例化线程池,开启线程池,将事件循环对象和协程任务对象交给pool_func函数,正式开始执行爬取任务

import aiohttp
import requests
import asyncio
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36"
}
url = 'https://www.ximalaya.com/revision/play/album?albumId=20337620&pageNum=1&sort=1&pageSize=30'
json_data = requests.get(url=url,headers=headers).json()

urls = [] #30个音频的url和name
for dic in json_data['data']['tracksAudioPlay']:
    audio_url = dic['src']
    audio_name = dic['trackName']
    urls.append({'name':audio_name,'url':audio_url})

async def request(dic):
    async with aiohttp.ClientSession() as s:
        #proxy='http://ip:port' 代理操作
        async with await s.get(dic.get('url'),headers=headers) as response:
            audio_data = await response.read()
            name = dic.get('name')
            return {'data':audio_data,'name':name}

def saveData(task):
    dic = task.result()  #音频的数据和名字
    fileName = dic.get('name')+'.m4a'
    data = dic.get('data')
    with open(fileName,'wb') as fp:
        fp.write(data)
    print(fileName,'下载完成！')

tasks = []
for dic in urls:
    c = request(dic)
    task = asyncio.ensure_future(c)
    task.add_done_callback(saveData)
    tasks.append(task)

loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

转载于:https://www.cnblogs.com/lgw1171435560/p/11106151.html

weixin_30820151

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在不使用爬虫框架的前提下,如何高效爬取500w条数据

使用线程池实现多任务+多任务异步协程来实现高效爬取. 下面以爬取音频数据做示范高效爬取大量音频数据主要思路:<==以下的变量名跟代码中不一样,只是方便表述所示==>1. 首先获取所有音频url地址,放进两个url_list中,用来模拟多个任务 <比如有500W个任务,就将他们分成两个任务列表去分别执行>2. 创建协程函数:主要实现获取音频数据,返回个字典 ...
复制链接

扫一扫