异步编程实现360图片爬虫

最新推荐文章于 2023-04-03 15:48:16 发布

doggbro

最新推荐文章于 2023-04-03 15:48:16 发布

阅读量208

点赞数 1

文章标签： python Powered by 金山文档

本文链接：https://blog.csdn.net/doggbro/article/details/129400242

版权

相信大家在爬虫的学习中发现爬虫爬取大量图片时十分的耗费时间，明明网速也不慢，但是爬取的速度就是上不来。

这是因为同步编程的爬虫是高IO操作，计算机的CPU很快，但是硬盘的下载和存储相比起来就很慢，这时候就可以使用异步编程来实现速度的飞跃。

话不多说，先上代码。

####爬取图片
import aiohttp
import asyncio
import json
import time
import aiofiles
import random


"""
获取所有页面中的图片的url
"""
def get_page_url(num):
    page_url = ["https://image.so.com/zjl?ch=wallpaper&sn={}".format(i*30) for i in range(num)]
    #print(page_url)
    return page_url

def json_url(page_json):
    pic_list = []
    page_json = json.loads(page_json)
    json_list = page_json["list"]
    for pic_json in json_list:
        pic_url = pic_json["imgurl"]
        pic_list.append(pic_url)
    return pic_list

async def get_pic(page_url):
    session = aiohttp.ClientSession()
    page_html = await session.get(page_url)
    page_json = await page_html.text()
    pic_list = json_url(page_json)
    await session.close()
    return pic_list

async def main_page(page_num):
    page_url = get_page_url(page_num)
    tasks_list = [asyncio.create_task(get_pic(url)) for url in page_url]
    pic_url_list = await asyncio.gather(*tasks_list)
    return pic_url_list


"""
第二部分 获取所有图片
"""


async def pic_task(url):
    session = aiohttp.ClientSession()
    pic_html = await session.get(url)
    pic_content = await pic_html.read()
    await session.close()
    return pic_content
    
async def save_pic(pic_in):
    num = random.uniform(-1.,1.)
    path_name = "Your-path-here"+str(num)+".jpg"
    async with aiofiles.open(path_name, mode='wb') as f:
        await f.write(pic_in)
        #print(contents)


async def get_pic_last(pages_num):
    all_pic_url = await main_page(pages_num)
    all_pic_url = [i for j in all_pic_url for i in j]
    
    
    task_list = [
    asyncio.create_task(pic_task(url)) for url in all_pic_url
    ]
    pic_content = await asyncio.gather(*task_list)
    
    
    ##############异步写出文件内容。
    save_task = [
    asyncio.create_task(save_pic(pic)) for pic in pic_content
    ]
    print("len:",len(save_task))
    await asyncio.gather(*save_task)


if __name__ == "__main__":
    t1 = time.time()
    h = asyncio.run(get_pic_last(5))
    #print("h:",h)
    t2 = time.time()
    print("花费时间：{}".format(t2-t1))

不管是同步还是异步，我们最重要的都是对网页的读取。也就是从HTML中抓到我们想要的东西，这里我们使用的JSON库来抓取

def json_url(page_json):
    pic_list = []
    page_json = json.loads(page_json)
    json_list = page_json["list"]
    for pic_json in json_list:
        pic_url = pic_json["imgurl"]
        pic_list.append(pic_url)
    return pic_list

这里format(i*30)是爬取三十页

def get_page_url(num):
    page_url = ["https://image.so.com/zjl?ch=wallpaper&sn={}".format(i*30) for i in range(num)]
    #print(page_url)
    return page_url

后面的函数和写法我也是在网络上自学的，大家可以看看函数名和结构自学一下，会对代码有更好的理解。

doggbro

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
异步编程实现360图片爬虫

这是因为同步编程的爬虫是高IO操作，计算机的CPU很快，但是硬盘的下载和存储相比起来就很慢，这时候就可以使用异步编程来实现速度的飞跃。不管是同步还是异步，我们最重要的都是对网页的读取。也就是从HTML中抓到我们想要的东西，这里我们使用的JSON库来抓取。相信大家在爬虫的学习中发现爬虫爬取大量图片时十分的耗费时间，明明网速也不慢，但是爬取的速度就是上不来。后面的函数和写法我也是在网络上自学的，大家可以看看函数名和结构自学一下，会对代码有更好的理解。话不多说，先上代码。
复制链接

扫一扫