「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫

本专栏是以杨秀璋老师爬虫著作《Python网络数据爬取及分析「从入门到精通」》为主线、个人学习理解为主要内容,以学习笔记形式编写的。
本专栏不光是自己的一个学习分享,也希望能给您普及一些关于爬虫的相关知识以及提供一些微不足道的爬虫思路。
专栏地址:Python网络数据爬取及分析「从入门到精通」
更多爬虫实例详见专栏:Python爬虫牛刀小试

前文回顾:
「Python爬虫系列讲解」一、网络数据爬取概述
「Python爬虫系列讲解」二、Python知识初学 
「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试 
「Python爬虫系列讲解」四、BeautifulSoup 技术
「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息
「Python爬虫系列讲解」六、Python 数据库知识
「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取
「Python爬虫系列讲解」八、Selenium 技术
「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识
「Python爬虫系列讲解」十、基于数据库存储的 Selenium 博客爬虫
「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫


目录

1 图片爬虫框架

2 图片网站分析

2.1 图片爬取方法

2.1.1 urlretrieve() 函数

2.1.2 文件写入操作

2.2 全景网爬取分析

2.2.1 分析自己的需求,寻找主题的超链接

2.2.2 分析全景网首页,获取各图集详情页面的超链接

2.2.3 分别到各图集详情页面批量循环定位图片超链接

2.2.4 调用 loadPicture(url, path) 函数下载图片

3 代码实现

4 本文小结


 图片作为网站的重要元素之一,在 HTML 中采用 <img> 标签表示,它具有重要的应用价值,可以同于图片分类,图片监测、知识图谱等。前三篇讲述的 Selenium 技术爬取的都是文本信息,本文将讲解利用 Selenium 技术爬取图片的实例,从网站定位分析、代码实现两方面来讲解爬取全景网各个主题图片的过程,最后讲解代码优化方案。

1 图片爬虫框架

图片爬取框架定义如下图所示,由此可知,整个爬虫是采用 Python 环境下的 Selenium 技术实现的,共分为 3 部分:

第一部分,定义主函数循环获取图片的主题名称和图片性详细页面的超链接,调用 Selenium 进行 DOM 树分析,利用 find_elements_by_xpath() 函数定位元素。其中,主题名称用于命名文件夹或图集,图集超链接用于进一步爬取图片。

第二部分,调用 getPic() 自定义函数创建图集文件夹,并且进入图片详情页面分析定位图片的 HTML 源码,再获取每张图片的超链接,通常位于 <img src="url"/> 节点。

第三部分,调用 loadPicture() 自定义函数分别下载每张图片,将其保存至本地。其中,该函数包括两个参数——URL(图片超链接)和 path(图片存储路径)。

事实上,实际应用中大部分图片爬虫都涉及这三个步骤。各种图片爬虫之间是存在区别的,常见的区别如下:

  1. 为了提高爬虫效率,修改为分布式或多线程爬虫;
  2. 为了规整图片格式,采用自定义的方式命名图片;
  3. 为了获取动态加载的图片,采用动态页面分析技术进行爬取。

下面将详细讲解爬取全景网(https://www.quanjing.com/)的具体流程。

2 图片网站分析

本节主要讲解全景网图片爬取过程,首先讲解常见的图片爬取方法,接着详细的逆袭全景网图片爬虫。

2.1 图片爬取方法

常见的图片爬取方法包括两种:urlretrieve() 函数和文件写入操作。

2.1.1 urlretrieve() 函数

urlretrieve() 方法直接将远程数据下载到本地,属于 urllib 模块,函数原型如下:

urllib.urlretrieve(url,filename=None,reporehook=None,data=None)

其中,参数 url 是下载文件的超链接;参数 filename 指定保存到本地的路径(如果未指定该参数,那么 urllib 会生成一个临时文件夹来保存数据);参数 reporthook 是一个回调函数,打枊链接上服务器以及相应的数据块传输完毕时会触发回调,我们可以利用这个回调函数来显示当前的下载进度;参数 data 是指上传到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),其中,filename 表示保存到本地的路径,headers 参数表示服务器的响应头。

下面通过一个例子来演示如何使用该方法。将百度首页的 Logo 保存到本地文件夹中,然后命名为 “baidu.png” 同时显示下载进度,具体代码如下:

from urllib.request import urlretrieve

# 回调函数:a-已下载数据块;b-数据块大小;c-远程文件大小
def cbk(a, b, c):
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print('%.2f%%' % per)

url = 'https://www.baidu.com/img/flexible/logo/pc/index.png'
urlretrieve(url, "baidu.png", cbk)

2.1.2 文件写入操作

通过文件写入操作来爬取图片。调用 urllib.request.urlopen() 函数打开图片,然后读取文件,写入数据,保存至本地。代码如下:

import urllib.request

# 自定义函数读/写图片,也可以保存任意格式的文件
def saveImg(imageURL, fileName):
    u = urllib.request.urlopen(imageURL)
    data = u.read()
    f = open(fileName, 'wb')
    f.write(data)
    print('图片保存为:', fileName)
    f.close()

url = 'https://www.baidu.com/img/flexible/logo/pc/index.png'
name = 'baidu_file.png'
saveImg(url, name)

2.2 全景网爬取分析

全景网是中国领先的图片库和正版图片素材网站,为个人提供正版的图片素材、图片搜索、高清图片下载,为企业提供正版图片素材和影像传播解决方案。网站首页如下图所示:

2.2.1 分析自己的需求,寻找主题的超链接

在爬取一个网站之前需要先分析自己的需求,这里需要爬取全景网各个主题下的图集,定位到一个包含各主题的页面(https://www.quanjing.com/category/129-1.html),网页返回的搜索结果图下图所示:

例如“科技”、“城市”、“家庭”等主题,单击相印主题可进入相应主题的详情页面。例如 “建筑”,可以看到各种以建筑为主题的图片,如下图所示:

2.2.2 分析全景网首页,获取各图集详情页面的超链接

接下来定位各个图集详情页面的超链接和主题。按下键盘 F12 键,使用 “元素选择器” 查看指定主题的 HTML 源码,比如,定位 “建筑” 主题的源码如下图所示,图集主题位于  <div id="divImgHolder" class="list">...</div> 目录下,在 <ul>...</ul> 节点中采用多个 <li>...</li> 列表节点布局。

利用 friver.find_elements_by_xpath() 函数定位到 id 属性为 “divImgHolder” 的 <div> 布局,再定位 <ul> 下的多个 <li> 节点,即可获取图集主题和超链接的内容,核心代码如下:

# 打开全景网
url = 'https://www.quanjing.com/category/129-1.html'
driver.get(url)

elems = driver.find_elements_by_xpath('//*[@id="divImgHolder"]/ul/li/span[2]/a')
for elem in elems:
    name = elem.text
    url = elem.get_attribute('href')
    print(name, url)

2.2.3 分别到各图集详情页面批量循环定位图片超链接

例如点击 “建筑” 主题详情页面,按下键盘 F12 键,使用 “元素选择器” 查看某一具体图片的 HTML 源码,,如下图所示:

该主题下的图片超链接都是位于 <div id="demo2"> <a>  <img> 路径下的,并且具体实在<img>标签下的 src 路径里,因此,使用 find_elements_by_xpath() 函数定位到该路径下,返回多个元素即为图片位置,再循环调用 get_attirbute('src') 函数就可以获取图片源地址,代码如下:

# 打开全景网"建筑"主题
url = 'https://www.quanjing.com/category/1295001.html'
driver.get(url)

elems = driver.find_elements_by_xpath('//*[@id="demo2"]/a/img')
for elem in elems:
    url = elem.get_attribute('src')
    print(url)

值得注意的是,我们有时候需要通过 class 属性类确定具体路径,在 HTML 中 class 属性用于标明标签的类名,同一类型的标签名可能相同。为了防止出现其他 class 属性相同的 div 布局,可以通过上一个 div 节点定位,至此达到取值唯一的目的。

同时,由于这里分布了多个不同的主题,所以需要为每个主题图集创建一个文件夹,该文件夹下为安排去对的同一主题的数张图片。创建并命名文件夹是通过调用 os.makedirs() 函数来实现的。创建之前应判断文件夹是否存在,若存在则替换,否则创建。

2.2.4 调用 loadPicture(url, path) 函数下载图片

自定义函数 loadPicture(url, pic_path) 包括两个参数——url 和 path,其中,url 表示需要下载图片的超链接,path 表示图片保存的路径。在该函数中,主要调用 urllib 扩展库的 urlretrieve() 函数下载图片,代码如下:

def loadPicture(pic_url, pic_path):
    pic_name = pic_url.split('/')[-2] + ".jpg"
    print(pic_path + pic_name)
    urlretrieve(pic_url, pic_path+pic_name)

由于图片地址都是采用超链接形式,通过斜杠(/)进行分割,所以这里获取其中最后一个参数和倒数第二个参数来命名图片,对应代码为: pic_url.split('/')[-2] + ".jpg"。

至此,全景网各个主体图集的爬虫代码分析完毕。

3 代码实现

爬取全景网整个分析流程对应的完整代码如下:

import os
import shutil
from urllib.request import urlretrieve
from selenium import webdriver

# 打开 Chrome 浏览器,这顶等待加载时间
chromedriver = 'E:/software/chromedriver_win32/chromedriver.exe'
os.environ["webdriver.chrome.driver"] = chromedriver
driver = webdriver.Chrome(chromedriver)

# 打开全景网
url = 'https://www.quanjing.com/category/129-1.html'
driver.get(url)

# 下载图片
def loadPicture(pic_url, pic_path):
    pic_name = pic_url.split('/')[-2] + ".jpg"
    print(pic_path + pic_name)
    urlretrieve(pic_url, pic_path+pic_name)

# 爬取图片
def getPic(name, url):
    print(name)
    path = "F:\\Pic3\\" +name + "\\"
    if os.path.isfile(path):    # Delete file
        os.remove(path)
    elif os.path.isdir(path):   # Delete dir
        shutil.rmtree(path, True)
    os.makedirs(path)           # create the file directory

    driver.get(url)
    elems = driver.find_elements_by_xpath('//*[@id="demo2"]/a/img')
    i = 0
    for elem in elems:
        url = elem.get_attribute('src')
        print(url)
        loadPicture(url, path)
        if i >= 10:
            break
        i = i + 1

# 主函数,同于获取主题超链接
if __name__ == '__main__':
    urls = []
    titles = []
    elems = driver.find_elements_by_xpath('//*[@id="divImgHolder"]/ul/li/span[2]/a')
    for elem in elems:
        name = elem.text
        url = elem.get_attribute('href')
        print(name, url)
        titles.append(name)
        urls.append(url)

    i = 0
    while i < len(urls):
        getPic(titles[i], urls[i])
        i = i + 1

运行结果如下图所示,可以看到爬取到的所有对应的各个主题:

这里对每个主题图集只爬取了 10 张照片,比如打开 “东方” 文件夹,将显示如下图所示的图片,每张图片的命名方式均对应图片 URL 中的命名。

虽然上述代码已经将各个主体的图片都爬取到了本地,但是仍有几个可以优化的地方如下:

  • 网站图片涉及翻页技术。
    当网站内容过多时就会涉及翻页技术,通常爬虫会分析翻页的超链接,寻找其中的规律并进行循环爬取。
  • 提升爬取速度的各种技术。
    在爬取过程中,可能会因为图片众多,有翻页可能等,导致爬取图片时间太长,那么就可以采用并行技术来提高爬虫的效率,其中包括多进程和分布式集群技术。爬取图片慢的主要原因是发送给网站的请求和返回的响应阻塞等待,此时 CPU 不会分配资源给其他进程,爬虫处理时间会相应增加;而采用多进程可以高效利用 CPU,采用集群分而治之的爬取办法可以减少网络阻塞。

关于上述这些待优化问题,将在下一讲文章的 Scrapy 技术中得以很好的解决。

4 本文小结

随着数据分析的快速发展,目前已不局限于分析数字、文本等内容了,图像、声音、视频等信息的分析也成为研究的热点,随之而来的问题就是如何得到这些数据。本文利用 Selenium 技术爬取网站图集,其分析和定位方法与爬取文本的方法一样,不同之处在于,当定位得到了图片的 URL 时,还需要利用图片爬取方法来下载每一张图片,常见的爬取方法有 urlretrieve() 函数和文件写入操作。


欢迎留言,一起学习交流~

感谢阅读

END

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Python爬虫中可以使用Selenium库来爬取网页信息。Selenium可以模拟浏览器行为,能够爬取JavaScript渲染后的网页信息。使用Selenium爬取网页时,需要配合浏览器驱动(如ChromeDriver、FirefoxDriver)使用。 ### 回答2: Python是一种高级编程语言,吸引了大量编程人员和开发者使用Python进行Web开发、数据分析、机器学习和人工智能等领域的开发。爬虫技术正是其中的一项重要技术,用python编写爬虫程序通常更加便捷和灵活。而seleniumPython中主要的爬虫库之一,用于爬取动态Web页面,可以模拟用户在浏览器中的行为,从而获取大量数据。 使用selenium爬取信息可以分为以下几个步骤: 1.安装和导入seleniumwebdriver: 首先需要安装适合的版本的selenium包,并导入seleniumwebdriver模块: ```python from selenium import webdriver ``` 2.配置浏览器驱动: Selenium需要浏览器驱动(如Chrome,Firefox等)来与其进行交互,需要配置如下: ```python driver = webdriver.Chrome() ``` 其中,Chrome()表示使用Chrome浏览器驱动,如果使用Firefox,则需要改为Firefox()。 3.访问网页: 使用get()函数可以访问指定的网址: ```python driver.get("https://www.baidu.com/") ``` 4.查找元素: 使用selenium的查找元素功能,可以根据元素的ID、name、class、tag等属性进行查找: ```python element = driver.find_element_by_id("kw") # 根据ID查找 element = driver.find_element_by_name("wd") # 根据name查找 element = driver.find_element_by_class_name("s_ipt") # 根据class查找 element = driver.find_element_by_tag_name("input") # 根据tag查找 ``` 5.模拟用户输入/点击: 使用send_keys()函数模拟用户在搜索框中输入关键字,使用click()函数模拟用户在搜索按钮上点击: ```python element.send_keys("Python") element.click() ``` 6.解析数据: 使用webdriver的page_source属性可以获取网页的源代码,然后使用正则表达式或BeautifulSoup库等解析数据。 以上就是使用selenium进行爬虫的主要步骤。实际应用中,需要根据不同的网站和需要爬取的数据进行具体的配置和调整。在使用selenium过程中,需要了解一些常见的使用技巧和注意事项,例如模拟等待时间,处理弹窗、验证码等。同时,也需要遵循爬虫的法律和道德规范,不得进行非法、滥用等行为。 ### 回答3: selenium是一种自动化测试工具,它可以模拟浏览器行为,实现自动化操作。在Python爬虫中,selenium也可以用来爬取需要模拟人工操作的网站数据。 使用selenium可以实现以下操作: 1.自动模拟浏览器打开网页,获取网页源码。 2.模拟用户操作,如点击按钮、填写文本框、下拉选择框等。 3.通过获取网页源码进行数据解析。 基本流程比较简单,首先需要准备好selenium的环境,这需要下载对应的webdriver,这里我使用Chrome浏览器,并且下载了对应版本的chromedriver。 然后通过selenium启动浏览器,在浏览器中进行模拟操作,最后获取网页源码进行数据解析。 具体实现可以参考以下代码: ```python from selenium import webdriver from bs4 import BeautifulSoup # 创建一个Chrome浏览器实例 browser = webdriver.Chrome() # 访问目标网页 browser.get('https://www.example.com') # 模拟点击按钮,等待加载完成 button = browser.find_element_by_xpath('//button[@class="btn"]') button.click() browser.implicitly_wait(5) # 获取网页源码 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') data = soup.find_all('div', class_='data') # 处理数据 for item in data: # do something # 关闭浏览器 browser.quit() ``` 总体来说,selenium是一个强大的爬虫工具,可以应对大部分需要模拟人工操作的场景,但也存在一些缺点,比如速度慢、占用资源高等。因此在具体应用中需要根据实际情况进行选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

荣仔!最靓的仔!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值