爬虫selenium获取百度任意图片

1.下载selenium库:pip install selenium
2.安装谷歌浏览器和下载对应的谷歌Chromedriver,地址:
https://www.google.cn/chrome/
http://npm.taobao.org/mirrors/chromedriver/
3.Chromedriver下载后放入的位置有两个,第一,放在谷歌浏览器的根目录在这里插入图片描述
第二,放在Annaconda路径的根目录在这里插入图片描述
4.特别注意:要下载谷歌浏览器的对应Chromedriver版本,查看谷歌浏览器代码:Chrome://version在这里插入图片描述
5.完整代码

'''
注释:
    @author is leilei
    百度图片爬虫,采用selenium模拟鼠标点击形式
    1. 将要搜索的文本表示成list
    2. 打开百度图片官网,输入文本,搜索
    3. 逐条下载对应的图片
注:
    本代码支持断点续爬!
'''

import os
import uuid
import time
import random
import urllib
import urllib.parse
import urllib.request
from selenium import webdriver
from selenium.webdriver.common.keys import Keys  # 键盘类

def send_param_to_baidu(name, browser):
    '''
    :param name:    str
    :param browser: webdriver.Chrome 实际应该是全局变量的
    :return:        将要输入的 关键字 输入百度图片
    '''
    # 采用id进行xpath选择,id一般唯一
    inputs = browser.find_element_by_xpath('//input[@id="kw"]')
    inputs.clear()
    inputs.send_keys(name)
    time.sleep(1)
    inputs.send_keys(Keys.ENTER)
    time.sleep(1)

    return

def download_baidu_images(save_path, img_num, browser):
    ''' 此函数应在
    :param save_path: 下载路径 str
    :param img_num:   下载图片数量 int
    :param browser:   webdriver.Chrome
    :return:
    '''
    if not os.path.exists(save_path):
        os.makedirs(save_path)

    img_link = browser.find_elements_by_xpath('//li/div[@class="imgbox"]/a/img[@class="main_img img-hover"]')
    img_link[2].click()
    # 切换窗口
    windows = browser.window_handles
    browser.switch_to.window(windows[-1])  # 切换到图像界面
    time.sleep(random.random())
    n=0
    for i in range(img_num):
        img_link_ = browser.find_element_by_xpath('//div/img[@class="currentImg"]')
        src_link = img_link_.get_attribute('src')
        print(src_link)
        # 保存图片,使用urlib
        # img_name = uuid.uuid4()
        n+=1
        urllib.request.urlretrieve(src_link, os.path.join(save_path, str(n) + '.jpg'))
        # 关闭图像界面,并切换到外观界面
        time.sleep(random.random())

        # 点击下一张图片
        browser.find_element_by_xpath('//span[@class="img-next"]').click()
        time.sleep(random.random())

    # 关闭当前窗口,并选择之前的窗口
    browser.close()
    browser.switch_to.window(windows[0])

    return

def main(names, save_root, img_num=[1000,], continue_num=0, is_open_chrome=False):
    '''
    :param names: list str
    :param save_root: str
    :param img_num: int list or int
    :param continue_num: int 断点续爬开始索引
    :param is_open_chrome: 爬虫是否打开浏览器爬取图像 bool default=False
    :return:
    '''
    options = webdriver.ChromeOptions()
    # 设置是否打开浏览器
    if not is_open_chrome:
        options.add_argument('--headless')  # 不打开浏览器
    else:
        prefs = {"profile.managed_default_content_settings.images": 2}
        options.add_experimental_option("prefs", prefs)

    browser = webdriver.Chrome(chrome_options=options)
    browser.maximize_window()
    browser.get(r'https://image.baidu.com/')
    time.sleep(random.random())

    assert type(names) == list, "names参数必须是字符串列表"
    assert continue_num <= len(names), "中断续爬点需要小于爬虫任务数量"

    if type(img_num) == int:
        img_num = [img_num] * len(names)
        print(img_num)
    elif type(img_num) == list:
        print(img_num)
    else:
        print("None, img_num 必须是int list or int")
        return

    for i in range(continue_num, len(names)):
        name = names[i]
        save_path = os.path.join(save_root, str(names.index(name)))  # 以索引作为文件夹名称
        send_param_to_baidu(name, browser)
        download_baidu_images(save_path=save_path, img_num=img_num[i], browser=browser)
    # 全部关闭
    browser.quit()
    return



if __name__=="__main__":
    main(names=['大自然', '天空',],
         save_root=r'./Reflective_vests',
         img_num=[50,50],
         continue_num=1)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
您好!对于亚马逊爬虫,使用Selenium是一个常见的选择。Selenium是一个自动化测试工具,可以模拟用户在网页上的操作。通过Selenium,您可以实现打开亚马逊网页、搜索商品、获取商品信息等操作。 如果您想使用Selenium爬取亚马逊网页,首先需要安装Selenium库并配置相应的浏览器驱动。您可以使用以下步骤来进行操作: 1. 安装Selenium库:在命令行中运行`pip install selenium`来安装Selenium库。 2. 下载浏览器驱动:Selenium需要与特定的浏览器驱动配合使用,您需要根据您所使用的浏览器下载对应的驱动。例如,如果您使用的是Chrome浏览器,可以从Chrome Driver官方网站(https://sites.google.com/a/chromium.org/chromedriver/)下载适用于您的Chrome浏览器版本的驱动。 3. 配置浏览器驱动:将下载的驱动解压缩后,将驱动所在的路径添加到系统环境变量中,或者在代码中指定驱动的路径。 4. 编写爬虫代码:使用Selenium的API来编写爬虫代码。例如,您可以使用`webdriver.Chrome()`创建一个Chrome浏览器对象,然后使用该对象模拟用户在亚马逊网页上的操作,如搜索商品、点击链接、获取页面内容等。 需要注意的是,使用Selenium进行爬虫操作时,应该遵守网站的使用条款和服务协议,确保合法合规地进行爬取。此外,为了减少对服务器的负载并保护您的爬虫不被检测到,您可以设置适当的请求间隔、使用随机User-Agent等策略。 希望以上信息对您有帮助!如果还有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

萧鼎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值