pyppeteer爬虫保存图片,python爬虫,完美

#pip install pyppeteer,使用 Pyppeteer(异步方案)
import asyncio
import os
import random

import requests
from pyppeteer import launch
async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://pic.sogou.com/pics?st=255&channel=vr&scene=pic_result&query=%E5%9B%BE%E7%89%87&rawQuery=%E5%9B%BE%E7%89%87&vrExpId=&vrAdParams=&hitKey=')
    # 获得标签对象
    img = await page.querySelectorAll("img")
    # 提取每个 img 标签的属性信息
    img_info = []
    for img_element in img:
        try:
            # 获得地址
            src = await img_element.getProperty('src')
            src_value = await src.jsonValue()
            # 获得图片名称
            alt = await img_element.getProperty('alt')
            alt_value = await alt.jsonValue() if alt else None
            # 获得图片格式
            if src_value:
                # 从 URL 中提取文件扩展名作为格式
                file_extension = src_value.split('.')[-1].lower()
            img_info.append({'src': src_value, '名称': alt_value, '格式': file_extension})
            # 判断url是否可以访问
            response = requests.get(src_value, timeout=5)  # 使用 requests 库进行判断,设置超时时间为 5 秒
            if response.status_code == 200:
                # 保存图片
                img_name = os.path.basename(src_value)
                print(f"可以访问:{src_value},保存图片:{img_name}")
                # 获得随机数
                random_number = random.randint(1000000, 9000000)
                # 这个保存如果没获得名称,格式失败,所以使用随机数+png
                # with open(f'dade/{img_name}', 'wb') as f:
                with open(f'dade/{random_number}.png', 'wb') as f:
                    # 下载
                    f.write(response.content)
            else:
                print(f"不可以访问:{src_value}")

        except Exception as e:
            print(f"出错啦: {e}")
    # 打印
    print(img_info)

    await browser.close()
asyncio.get_event_loop().run_until_complete(main())
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大得369

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值