只用20行python代码爬取必应高质量图片

最近需要一些数据来训练神经网络,发现必应上照片的质量很高,于是写了个脚本来爬取照片。
我用的selenium框架,简单实用,代码在最后面,只需要修改三个参数就行。

下面简单介绍一下使用步骤。

先打开必应网站,在搜索栏里输入自己要爬取图片的关键词(如“企鹅”),再选择图片,如下所示

在这里插入图片描述

然后点击第一张图片查看原图(否则这一页都是缩略图),进入如下页面

在这里插入图片描述

然后复制上面的链接,粘贴到代码里面driver.get()中,再设置一下爬取上限和保存路径就可以了(注意URL里面不能有中文字符,我这里复制下来后放在jupyter-notebook里面自动将中文字符转为英文字符串了)。

代码如下

# -*-.coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import time
import urllib

with webdriver.Safari() as driver:
    wait = WebDriverWait(driver, 10)
    driver.get("https://cn.bing.com/images/search?view=detailV2&ccid=Ox48xUaY&id=71B7C20B885E0BC65D2D4E044662FB55A3078486&thid=OIP.Ox48xUaYQvUeC90Ws2wQQQHaHa&mediaurl=http%3a%2f%2fpic28.nipic.com%2f20130406%2f9483785_165021459000_2.jpg&exph=1024&expw=1024&q=%e4%bc%81%e9%b9%85&simid=608011899868351589&ck=947915F9DF09EA0AF6344C192232B62C&selectedIndex=0&ajaxhist=0")     # 替换为自己的URL
    time.sleep(5)
    num = 1
    for i in range(1000):    # 设置爬取图片上限
        src = driver.find_element_by_class_name("imgContainer").find_element_by_tag_name('img').get_attribute("src")
        print(src)
        try:
            time.sleep(0.2)
            urllib.request.urlretrieve(src,'./bing/' + str(num)+'.jpg')  # 设置为自己保存路径
            num += 1
            time.sleep(0.2)
        except Exception :
            time.sleep(1)
            print("产生未知错误,放弃保存")
            driver.find_element_by_xpath("//span[@title='Next image result']").click()
        else:
            print("图" + str(num))
            driver.find_element_by_xpath("//span[@title='Next image result']").click()

帮助到您的话点个赞哦!

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值