用Python的selenium包从百度图片上爬想要的图片

selenium包介绍


这是一个可以模拟一个浏览器用脚本语言控制浏览内容的扩展包,使用这样的方法浏览信息,和传统的get、post请求页面内容的方式完全不同,因为浏览器内置的各种组件可以帮你完成最难的动态加载内容的获取,当你真正是一个浏览器的时候,这些都不再是问题。为了使用脚本语言来控制浏览器访问页面,腰围浏览器下载一个驱动,并且驱动所在的位置一定要是系统变量下的位置。这里可以直接放在Python的系统变量所在的位置即可。下面是各种浏览器对应驱动的下载方法,这里引用了一篇charilia1的博文,里面有常用的浏览器的驱动。

https://blog.csdn.net/weixin_40438563/article/details/78683297

下载完驱动之后还要在Python中安装selenium包,可以用pip的方法来安装,也可以自己下载安装,地址在上面引用的文章中也有提到。我拿出呢个了这些之后环境就算配置好了。

打开一个页面

以谷歌浏览器为例,下面在Python的idle中输入以下命令:

from selenium import webdriver
driver = webdriver.Chrome()

如果环境配置成功,你的浏览器将被自动打开,显示一个空白界面,如下图:

下面就进入正题,开始从百度图片获取高清图片。

入口url解析

首先打开百度图片的首页随便搜索一个关键词,比如“selenium”,按回车,得到一个新的界面。界面的URL如下:

https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1536570134770_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=selenium

分析URL中的这么多组成部分中可以看到最后有一个叫“word”的部分,这个肯定是我们搜索的关键词了。然后再看之前的部分,开头的域名肯定是必要的,那么中间的那么多看不懂的内容有没有用呢?我们不妨一个个删除试试,最终得到不能再搜段的入口页面的url如下:

https://image.baidu.com/search/index?tn=baiduimage&word=selenium

然后我们试着用打开的浏览器来访问这个url,在idle中输入日下命令:

url = "https://image.baidu.com/search/index?tn=baiduimage&word=selenium"
driver.get(url)

此时空白的浏览器就显示了百度图片搜索selenium的结果如下图:

寻找图片链接:

下面要做的就是爬虫的基本功了,在网页的源码中找图片的高请链接,按F12打开开发者选项,可以找到这样一个链接:

鼠标放在上面会看到这是一张缩略图的地址,复制链接查看,图片地址是加密,并不是我们想要的,所以点击图片进入另一个页面,再去查找,在大图的背后找到了同一张图片的另一个连接,如下:

复制这个链接在查看,bingo。接下来就要写代码,批量获取图片地址了。

批量获取图片链接

思路是这样的,因为百度图片的查看大图页面的翻页链接是高度加密的,很难用get方法在页面中获取到翻页链接,另外,进入查看大图的页面上也很难获取到大图的链接,与其破解加密方法,还不如等待网页自己加载完全了再去获取链接,这就是selenium方法的无可比拟的优势,你所有在浏览器上看到的内容肯定都可以下载。所以方法就是首先搜索主题,然后模拟点击进入大图页面,然后{获取连接,模拟点击翻页}做循环。获取一定数量的图片就可以了。下面是代码:

from selenium import webdriver
import time
import os
import lxml
import lxml.html
import cssselect
from lxml import etree
import re
import numpy
from urllib import request
from urllib import parse

# get方法打开一个连接
def url_open(url):
    res = request.Request(url)
    res.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134")
    html = request.urlopen(res,timeout = 60).read()
    return html

# 隐式打开一个浏览器
def open_Explor():
    options = webdriver.ChromeOptions()
    options.add_argument('headless')
    driver = webdriver.Chrome(chrome_options=options)
    return driver
##保存图片到本地
def save(url):
    html = url_open(url)
    name = url[len(url)-15:len(url)]
    with open(name, "wb") as p:
        p.write(html)
    p.close()

# 主函数
def main(key,type = 0,n = 20):#key:搜索关键词,type:图片尺寸类型,n:下载图片数量
#这里加入两个参数用来筛选图片的尺寸
    size = ["",                   ##任意尺寸
        "&width=1920&height=1080",##电脑壁纸
        "&width=2560&height=1440",##手机壁纸
    ]
    # 网页链接中不能出现中文,所以要对关键词进行转码,用到了quote函数。
    key_word = parse.quote(str(key))
    # 设置路径到桌面,这里要根据电脑做修改
    os.chdir('C:/Users/lenovo/Desktop/')
    # 在新设路径下建立文件夹,一搜索关键词命名
    os.mkdir(key)
    # 设置路径到新建文件夹
    os.chdir('C:/Users/lenovo/Desktop/' + key)
    # 拼接起始页面地址
    url = "https://image.baidu.com/search/index?tn=baiduimage&word=" + key_word + size[type]
    # 打开浏览器并访问起始页
    driver = open_Explor()
    driver.get(url)
    # 进入大图页面页面,这里有两点注意,第一点是百度图片搜索之后会有广告图片在前
    # 几张,点击进入的是一个广告页,所以从第十张图片开始下载。第二点是起始页地址
    # 的xpath还有一种不常见的形式,放在except中。另xpath可以用谷歌开发者工具
    # 复制得到,然后再做小修改即可。
    try:
        hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/a')
    except:
        hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/div[1]/a')
    next_url = hre.get_attribute("href")
    driver.get(next_url)
    # 循环获取图片链接并下载图片
    for num in range(0,n):
        time.sleep(1)#等待网页加载,很必要,不然无法获取到新页面源代码
        html = driver.page_source#获取网页源码
        a = re.findall(r'src="([^<]+?\.jpg)',html)#正则获取图片地址
        if 'baidu' in a[0]:#这里的选择由页面细节决定,不介绍,想了解的可以用debug模式看一下。
            url = a[0].replace("amp;",'')
            save(url)
            print(num+1,"存入成功")
        else:
            print(num + 1, "存入失败")
        driver.find_element_by_xpath('//*[@id="container"]/span[2]').click()#翻到下一页
    print("完成!")

key = input("请输入搜索关键词")
type = int(input("请输入大小信息"))
num = int(input("下载多少张?"))
main(key = key,type = type,n= num)

以上代码可以在idle中直接运行,输入对应的参数即可直接获取到想要的图片。不过话说回来,这种方法虽然万能,不用考录加密和动态加载问题,但是有一点,速度会相对较慢,而且由于网速的问题,网页动态加载的部分太慢也会有问题。所以有志于深度页面爬取的同学一定要花时间研究网页的js方法。
以上内容为摸索得到,如有不当,请指出,定虚心接受。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值