爬虫 + 自动化利器 selenium 之自学成才篇（一）_selenium detach

Android失眠夜

于 2024-05-14 06:46:09 发布

阅读量863

点赞数 13

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/m0_61418075/article/details/138833703

版权

程序员专栏收录该内容

152 篇文章 0 订阅

订阅专栏

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

文章目录

- selenium 简介

❤ 系列内容 ❤
爬虫+自动化利器 selenium 之自学成才篇（一）
主要内容：selenium 简介、selenium 安装、安装浏览器驱动、8 种方式定位页面元素、浏览器控制、鼠标控制、键盘控制

爬虫+自动化利器 selenium 之自学成才篇（二）
主要内容：三种等待方式（显式等待、隐式等待、强制等待）、一组元素的定位方式、切换操作（窗口切换、表单切换）、弹窗处理等。

爬虫+自动化利器 selenium 之自学成才篇（三）
主要内容：文件上传 & 下载、cookie 操作、调用 JavaScript（滑动滚动条）、关闭操作、页面截图等。

selenium 简介

Selenium 是最广泛使用的开源 Web UI（用户界面）自动化测试套件之一。Selenium 支持的语言包括C#，Java，Perl，PHP，Python 和 Ruby。目前，Selenium Web 驱动程序最受 Python 和 C＃欢迎。 Selenium 测试脚本可以使用任何支持的编程语言进行编码，并且可以直接在大多数现代 Web 浏览器中运行。在爬虫领域 selenium 同样是一把利器，能够解决大部分的网页的反爬问题，但也不是万能的，它最明显的缺点就是速度慢。下面就进入正式的 study 阶段。

selenium安装

打开 cmd，输入下面命令进行安装。

pip install -i https://pypi.douban.com/simple selenium

执行后，使用 pip show selenium 查看是否安装成功。

安装浏览器驱动

针对不同的浏览器，需要安装不同的驱动。下面列举了常见的浏览器与对应的驱动程序下载链接，部分网址需要 “科学上网” 才能打开哦（dddd）。

Firefox 浏览器驱动：Firefox
Chrome 浏览器驱动：Chrome
IE 浏览器驱动：IE
Edge 浏览器驱动：Edge
PhantomJS 浏览器驱动：PhantomJS
Opera 浏览器驱动：Opera

这里以安装 Chrome 驱动作为演示。但 Chrome 在用 selenium 进行自动化测试时还是有部分 bug ，常规使用没什么问题，但如果出现一些很少见的报错，可以使用 Firefox 进行尝试，毕竟是 selenium 官方推荐使用的。

确定浏览器版本

在新标签页输入 chrome://settings/ 进入设置界面，然后选择【关于 Chrome】

查看自己的版本信息。这里我的版本是94，这样在下载对应版本的 Chrome 驱动即可。
在这里插入图片描述

下载驱动

打开 Chrome驱动。单击对应的版本。
在这里插入图片描述
根据自己的操作系统，选择下载。

在这里插入图片描述
下载完成后，压缩包内只有一个 exe 文件。

将 chromedriver.exe 保存到任意位置，并把当前路径保存到环境变量中（我的电脑>>右键属性>>高级系统设置>>高级>>环境变量>>系统变量>>Path），添加的时候要注意不要把 path 变量给覆盖了，如果覆盖了千万别关机，然后百度。添加成功后使用下面代码进行测试。

from selenium import webdriver

# Chrome浏览器
driver = webdriver.Chrome()

定位页面元素

打开指定页面

使用 selenium 定位页面元素的前提是你已经了解基本的页面布局及各种标签含义，当然如果之前没有接触过，现在我也可以带你简单的了解一下。
以我们熟知的 CSDN 为例，我们进入首页，按 【F12】 进入开发者工具。红框中显示的就是页面的代码，我们要做的就是从代码中定位获取我们需要的元素。
在这里插入图片描述
想要定位并获取页面中的信息，首先要使用 webdriver 打开指定页面，再去定位。

from selenium import webdriver

# Chrome浏览器
driver = webdriver.Chrome()
driver.get('https://www.csdn.net/')

执行上面语句后会发现，浏览器打开 CSDN 主页后会马上关闭，想要防止浏览器自动关闭，可以添加下面代码。

# 不自动关闭浏览器
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)

# 将option作为参数添加到Chrome中
driver = webdriver.Chrome(chrome_options=option)

这样将上面的代码组合再打开浏览器就不会自动关闭了。

from selenium import webdriver

# 不自动关闭浏览器
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)

# 注意此处添加了chrome\_options参数
driver = webdriver.Chrome(chrome_options=option)
driver.get('https://www.csdn.net/')

下面我们再来看看几种常见的页面元素定位方式。

id 定位

标签的 id 具有唯一性，就像人的身份证，假设有个 input 标签如下。

<input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++难在哪里？">

我们可以通过 id 定位到它，由于 id 的唯一性，我们可以不用管其他的标签的内容。

driver.find_element_by_id("toolbar-search-input")

name 定位

name 指定标签的名称，在页面中可以不唯一。假设有个 meta 标签如下

<meta name="keywords" content="CSDN博客,CSDN学院,CSDN论坛,CSDN直播">

我们可以使用 find_element_by_name 定位到 meta 标签。

driver.find_element_by_name("keywords")

class 定位

class 指定标签的类名，在页面中可以不唯一。假设有个 div 标签如下

<div class="toolbar-search-container">

我们可以使用 find_element_by_class_name 定位到 div 标签。

driver.find_element_by_class_name("toolbar-search-container")

tag 定位

每个 tag 往往用来定义一类功能，所以通过 tag 来识别某个元素的成功率很低，每个页面一般都用很多相同的 tag ，比如：\<div\>、\<input\> 等。这里还是用上面的 div 作为例子。

<div class="toolbar-search-container">

我们可以使用 find_element_by_class_name 定位到 div 标签。

driver.find_element_by_tag_name("div")

xpath 定位

xpath 是一种在 XML 文档中定位元素的语言，它拥有多种定位方式，下面通过实例我们看一下它的几种使用方式。

<html>
  <head>...<head/>
  <body>
    <div id="csdn-toolbar">
      <div class="toolbar-inside">
        <div class="toolbar-container">
          <div class="toolbar-container-left">...</div>
          <div class="toolbar-container-middle">
            <div class="toolbar-search onlySearch">
			<div class="toolbar-search-container">
				<input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++难在哪里？">

根据上面的标签需要定位最后一行 input 标签，以下列出了四种方式，xpath 定位的方式多样并不唯一，使用时根据情况进行解析即可。

# 绝对路径（层级关系）定位
driver.find_element_by_xpath(
	"/html/body/div/div/div/div[2]/div/div/input[1]")
# 利用元素属性定位
driver.find_element_by_xpath(
	"//\*[@id='toolbar-search-input']"))
# 层级+元素属性定位
driver.find_element_by_xpath(
	"//div[@id='csdn-toolbar']/div/div/div[2]/div/div/input[1]")
# 逻辑运算符定位
driver.find_element_by_xpath(
	"//\*[@id='toolbar-search-input' and @autocomplete='off']")

css 定位

CSS 使用选择器来为页面元素绑定属性，它可以较为灵活的选择控件的任意属性，一般定位速度比 xpath 要快，但使用起来略有难度。
CSS 选择器常见语法：

方法	例子	描述
.class	`.toolbar-search-container`	选择 `class = 'toolbar-search-container'` 的所有元素
#id	`#toolbar-search-input`	选择 `id = 'toolbar-search-input'` 的元素
*	`*`	选择所有元素
element	`input`	选择所有 `<input\>` 元素
element>element	`div>input`	选择父元素为 `<div\>` 的所有 `<input\>` 元素
element+element	`div+input`	选择同一级中在 `<div\>` 之后的所有 `<input\>` 元素
[attribute=value]	`type='text'`	选择 `type = 'text'` 的所有元素

举个简单的例子，同样定位上面实例中的 input 标签。

driver.find_element_by_css_selector('#toolbar-search-input')
driver.find_element_by_css_selector('html>body>div>div>div>div>div>div>input')

link 定位

link 专门用来定位文本链接，假如要定位下面这一标签。

<div class="practice-box" data-v-04f46969="">加入！每日一练</div>

我们使用 find_element_by_link_text 并指明标签内全部文本即可定位。

driver.find_element_by_link_text("加入！每日一练")

partial_link 定位

partial_link 翻译过来就是“部分链接”，对于有些文本很长，这时候就可以只指定部分文本即可定位，同样使用刚才的例子。

<div class="practice-box" data-v-04f46969="">加入！每日一练</div>

我们使用 find_element_by_partial_link_text 并指明标签内部分文本进行定位。

driver.find_element_by_partial_link_text("加入")

浏览器控制

修改浏览器窗口大小

from selenium import webdriver

# Chrome浏览器
driver = webdriver.Chrome()
driver.get('https://www.csdn.net/')
# 设置浏览器浏览器的宽高为：600x800
driver.set_window_size(600, 800)

使用 maximize_window() 方法可以实现浏览器全屏显示。

from selenium import webdriver

# Chrome浏览器
driver = webdriver.Chrome()
driver.get('https://www.csdn.net/')
# 设置浏览器浏览器的宽高为：600x800
driver.maximize_window()

浏览器前进&后退

webdriver 提供 back 和 forward 方法来实现页面的后退与前进。下面我们 ①进入CSDN首页，②打开CSDN个人主页，③back 返回到CSDN首页，④ forward 前进到个人主页。

from selenium import webdriver
from time import sleep

driver = webdriver.Chrome()

# 访问CSDN首页
driver.get('https://www.csdn.net/')
sleep(2)
#访问CSDN个人主页
driver.get('https://blog.csdn.net/qq\_43965708')
sleep(2)
#返回（后退）到CSDN首页
driver.back()
sleep(2)
#前进到个人主页
driver.forward()

请添加图片描述

细心的读者会发现第二次 get() 打开新页面时，会在原来的页面打开，而不是在新标签中打开。如果想的话也可以在新的标签页中打开新的链接，但需要更改一下代码，执行 js 语句来打开新的标签。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

Android失眠夜

关注

13
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
爬虫 + 自动化利器 selenium 之自学成才篇（一）_selenium detach

Selenium 是最广泛使用的开源 Web UI（用户界面）自动化测试套件之一。Selenium 支持的语言包括C#，Java，Perl，PHP，Python 和 Ruby。目前，Selenium Web 驱动程序最受 Python 和 C＃欢迎。Selenium 测试脚本可以使用任何支持的编程语言进行编码，并且可以直接在大多数现代 Web 浏览器中运行。在爬虫领域 selenium 同样是一把利器，能够解决大部分的网页的反爬问题，但也不是万能的，它最明显的缺点就是速度慢。
复制链接

扫一扫