Python+Selenium Web自动化

最新推荐文章于 2024-10-07 16:27:03 发布

敲木鱼_

最新推荐文章于 2024-10-07 16:27:03 发布

阅读量670

点赞数 1

分类专栏：软件测试

本文链接：https://blog.csdn.net/qq_30075075/article/details/106358496

版权

软件测试专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Python+Selenium Web自动化

selenium

selenium是一个Web应用的自动化框架,通过它,我们可以写出自动化程序,模拟用户在浏览器操作Web界面
selenium提供了多种语言编写的selenium客户端库,包括java、python、js、ruby等,方便不同编写语言的开发者使用

浏览器驱动

浏览器驱动也是一人独立的程序，是由浏览器厂商提供的，不同浏览器需要不同的浏览器驱动，比如CHrome和火狐有各自不同的驱动程序
浏览器驱动接受到我们的自动化程序发送的界面操作请求后，会转发请求给浏览器，让浏览器去执行对应的自动化操作。
浏览器执行完操作后，会将自动化的结果返回给浏览器驱动，浏览器驱动再通过HTTP响应的消息返回给我们的自动化程序的客户端
自动化程序的客户端库接收到响应后，将结果转化为数据对象，返回给我们的代码，自动化程序就知道这次自动化操作的结果如何了

selenium的安装

python语言安装selenium ：
- pip install selenium
安装浏览器驱动
- chrome驱动对应浏览器版本下载：Chrome浏览器驱动下载
- Windows平台的直接把下载的zip文件解压得到chromedriver.exe

selenium简单示例

from selenium import webdriver

# 创建Webdriver对象，指明使用chrome浏览器驱动

my_driver = webdriver.Chrome(executable_path="d:/chromedriver.exe")

# 调用WebDriver 对象的get方法,可以让浏览器打开指定网址
my_driver.get("https://www.baidu.com")

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

#屏蔽自动化操作的提示条
option = Options()
option.add_argument('--disable-infobars')
# 添加缓存文件目录
option.add_argument('--user-data-dir=C:\Users\13447\AppData\Local\Google\Chrome\User Data')

driver = webdriver.Chrome(executable_path="chromedriver.exe路径",options=option)

选择元素的基本方法

根据元素id属性选择元素

根据元素的id属性选择元素 : driver.find_element_by_id("标签id")
send_keys()输入框输入文本方法

click() : 点击按钮方法

示例 :

from selenium import webdriver

# 创建Webdriver对象，指明使用chrome浏览器驱动

my_driver = webdriver.Chrome(executable_path="d:/chromedriver.exe")

# 调用WebDriver 对象的get方法,可以让浏览器打开指定网址
my_driver.get("https://www.baidu.com")

# 根据id选择定位元素，返回的就是该元素对应的WebElement对象
element = my_driver.find_element_by_id("kw")  # 定位到百度搜索框

# 通过该WebElement对象,就可以对该页面元素进行操作了
# 输入字符串到输入框中
element.send_keys("Python学习")

# 定位百度搜索按钮并点击
my_driver.find_element_by_id("su").click()

根据class属性、tag名选择元素

根据元素的class属性选择元素 : driver.find_element_by_class_name("标签class_name")
driver.find_element_by_class_name 返回的是一个对象
driver.find_elements_by_class_name 返回的是一个对象列表
driver.find_element_by_class_name.text 返回标签text属性的值

网页源代码

    <body>
        
        <div class="plant"><span>土豆</span></div>
        <div class="plant"><span>洋葱</span></div>
        <div class="plant"><span>白菜</span></div>

        <div class="animal"><span>狮子</span></div>
        <div class="animal"><span>老虎</span></div>
        <div class="animal"><span>山羊</span></div>

    </body>

示例代码:

from selenium import webdriver

my_driver = webdriver.Chrome(executable_path="d:/chromedriver.exe")
my_driver.get("http://cdn1.python3.vip/files/selenium/sample1.html")
element = my_driver.find_element_by_class_name("plant")
# find_element_by_class_name 定位的class有相同时,只返回第一个元素
print(element.text) # 土豆

# driver.find_elements_by_class_name 返回的是一个对象列表
elements = my_driver.find_elements_by_class_name("plant")
for i in elements:
    print(i.text)
'''
土豆
洋葱
白菜
'''

根据 tag 名选择元素

find_element_by_tag_name("标签名"): 只返回第一个标签元素对象

find_elements_by_tag_name("标签名") : 作为列表返回所有定位的标签对象

from selenium import webdriver

my_driver = webdriver.Chrome(executable_path="d:/chromedriver.exe")
my_driver.get("http://cdn1.python3.vip/files/selenium/sample1.html")
element = my_driver.find_element_by_tag_name("div")
# find_element_by_class_name 定位的class有相同时,只返回第一个元素
print(element.text) # 土豆

# river.find_elements_by_tag_name 返回的是一个对象列表
elements = my_driver.find_elements_by_tag_name("div")
for i in elements:
    print(i.text)
'''
土豆
洋葱
...
备案号 苏ICP备88885574号
'''

**find_element 和 find_elements 的区别 : **

使用find_element选择符合条件的第一个元素，如果没有符合条件的元素，抛出NoSuchElementException 异常
使用find_elements选择符合条件的所有元素，如果没有符合条件的元素，返回空列表

Selenium设置等待超时时间

driver.implicity_wait(5)

当发现元素没有找到的时候，并不立即返回找不到元素的错误，而是周期性(每隔半秒钟)重新寻找该元素,直到该元素找到
如果超出指定的等待时长,这是就会抛出异常
并且后续的find_element和find_elements之类的方法调用都会采用driver.implicity_wait(5)

from selenium import webdriver

my_driver = webdriver.Chrome(executable_path="d:/chromedriver.exe")

# 设置最大等待时长为 10秒
my_driver.implicitly_wait(10)

my_driver.get('https://www.baidu.com')

element = my_driver.find_element_by_id('kw')

element.send_keys('python学习')

element = my_driver.find_element_by_id('1')

print (element.text)

操控元素的基本方法

点击元素
- driver.find_element_by_id("xx").click()
文本框输入字符串
- 清除输入框内容 : driver.find_element_by_id("xx").clear()
- 输入内容 : driver.find_element_by_id("xx").send_keys("文本内容")
获取元素信息
- driver.find_element_by_id("xx").text
获取源文本信息2
- 通过element对象的text属性,可以获取元素展示在界面上的文本内容
- 但是有时元素元素文本内容没有展示在界面上,或者没有完全展示在界面上时,用element对象的text属性就会出现问题
- 这时可以尝试使用element.get_attribute("innerText") 或者element.get_attribute("textContent")
获取元素属性
- driver.find_element_by_id("xx").get_attribute("class") : 获取class元素的类名
退出浏览器
- driver.quit()
获取整个元素对应的HTML : element.get_attribute('outerHTML')
获取某个元素内部的HTML文本内容 : element.get_attribute('innerHTML')
获取输入框内的文字 : element_getattribute("value")

css表达式 - 上

Css Selector选择器
CSS Selector 同样可以根据tag名、id属性和class属性来选择元素
- 根据tag名选择元素
  - elements = driver.find_elements_by_css_selector("div")
  - 等同于 : elements = driver.find_elements_by_tag_name("div")
- 根据id属性选择元素 : 语法是在id前加#号 #id
  - element = driver.find_element_by_css_selector("#kw")
- 根据class属性选择所以符合的元素 : 语法是在class值前加点 .class值
  - elements = driver.find_elements_by_css_selector(".button")
  - 等同于 : elements = driver.find_elements_by_class_name("button")
选择子元素和后代元素
```
<div id='container'>
    
    <div id='layer1'>
        <div id='inner11'>
            <span>内层11</span>
        </div>
        <div id='inner12'>
            <span>内层12</span>
        </div>
    </div>

    <div id='layer2'>
        <div id='inner21'>
            <span>内层21</span>
        </div>
    </div>
    
</div>
```
- 上面HTML代码中,id 为 container 的div元素包含了 id 为 layer1 和 layer2 的两个div元素。
- 这种包含是直接包含，中间没有其他的层次的元素了。所以 id 为 layer1 和 layer2 的两个div元素是 id 为 container 的div元素的 直接子元素
- id 为 layer2 的div元素又包含了 id 为 inner21 这个div元素。这种包含关系也是 直接子元素 关系
- 而对于 id 为 container 的div元素来说， id 为 inner11 、inner12 、inner22 的元素和两个 span类型的元素 都不是它的直接子元素,但是他们是在container的内部,可以称之为后代元素
- 后代元素也包括了直接子元素,比如id为layer1和layer2的两个div元素,可以是id为container的直接子元素,同时也是后代子元素
- 如果元素2 是元素1的直接子元素,css selector选择子元素的语法是这样的 :
  - 元素1> 元素2 : 最终选择的是元素2,且要是元素2是元素1的直接子元素
- 如果元素2是元素 1的后代元素,css selector 选后代元素的语法是这样的 :
  - 元素1 元素2 : 最终选择的是元素2,且要求元素2是元素1的后代元素
根据属性选择
- css 选择器支持通过任何属性来选择元素，语法是用一个方括号 []
- 比如 <a href="http://www.miitbeian.gov.cn">苏ICP备88885574号</a>里面根据 href选择，可以用css 选择器
  - ```
  from selenium import webdriver
  
  wd = webdriver.Chrome(r'e:\chromedriver.exe')
  
  wd.get('http://cdn1.python3.vip/files/selenium/sample1.html')
  
  # 根据属性选择元素
  element = wd.find_element_by_css_selector('[href="http://www.miitbeian.gov.cn"]')
  
  # 打印出元素对应的html
  print(element.get_attribute('outerHTML'))
```
- 可以加上标签名的限制,比如 div[class='button'] :表示选择所以标签为div,且class属性值是button的
- 根据属性选择,还可以不指定属性值,比如 [href],表示素有具有属性为href的元素,不管他们的值是什么
- css可以选择属性值包含某个字符串的元素
  - 要选择a节点,里面的href属性包含了miui字符串,就可以这样写
    - a[href*="miui"]
- css可以选择属性值以某个字符串开头的元素
  - 以http开头 : a[href^="http"]
- css可以选择属性值以某个字符串结尾的元素
  - 以.com结尾 : a[href$=".com"]
- 如果一个元素具有多个属性
  - <div class="tianmao" ctype="shop">天猫购物街</div>
  - 指定选择的要素同时具有多个属性的限制 : div[class=tianmao][ctype=shop]

css表达式-下

选择语法联合使用

<div id='bottom'>
    <div class='footer1'>
        <span class='copyright'>版权</span>
        <span class='date'>发布日期：2018-03-03</span>
    </div>
    <div class='footer2'>
        <span>备案号
            <a href="http://www.miitbeian.gov.cn">苏ICP备88885574号</a>
        </span>
    </div>        
</div>

我们要选择网页 html 中的元素 <span class='copyright'>版权</span>
- CSS selector 表达式可以这样写： div.footer1 > span.copyright
  - 就是选择一个class 属性值为 copyright 的 span 节点，并且要求其必须是 class 属性值为 footer1 的 div节点的子节点
- 可以更简单一点 : .footer1 > .copyright
  - 就是选择一个class 属性值为copyright 的节点（不限类型），并且要求其必须是 class 属性值为 footer1 的节点的子节点

组选择

如果我们要同时选择所有class 为 plant 和 class 为 animal 的元素。怎么办？

这种情况，css选择器可以使用 逗号 ，称之为组选择，像这样

.plant , .animal

再比如，我们要同时选择所有tag名为div的元素 和 id为BYHY的元素，就可以像这样写

div,#BYHY

对应的selenium代码如下

elements = wd.find_elements_by_css_selector('div,#BYHY')
for element in elements:
    print(element.text)

我们再看一个例子

<!DOCTYPE html>
<html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>白月黑羽测试网页1a</title>
    </head>
    <body>          
       <div id='t1'>
           <h3> 唐诗 </h3>
           <span>李白</span>
           <p>静夜思</p>
           <span>杜甫</span>
           <p>春夜喜雨</p>              
       </div>         
       <div id='t2'>
           <h3> 宋词 </h3>
           <span>辛弃疾</span>
           <p>北固亭怀古</p>   
       </div>             
    </body>
</html>

我们要选择所有唐诗里面的作者和诗名，也就是选择所有 id 为 t1 里面的 span 和 p 元素

我们是不是应该这样写呢？

#t1 > span,p

不行哦，这样写的意思是选择所有 id 为 t1 里面的 span 和 所有的 p 元素

只能这样写

#t1 > span , #t1 > p

按次序选择子节点

对应的html如下，关键信息如下

    <body>  
       <div id='t1'>
           <h3> 唐诗 </h3>
           <span>李白</span>
           <p>静夜思</p>
           <span>杜甫</span>
           <p>春夜喜雨</p>              
       </div>      
        
       <div id='t2'>
           <h3> 宋词 </h3>
           <span>苏轼</span>
           <p>赤壁怀古</p>
           <p>明月几时有</p>
           <p>江城子·乙卯正月二十日夜记梦</p>
           <p>蝶恋花·春景</p>
           <span>辛弃疾</span>
           <p>京口北固亭怀古</p>
           <p>青玉案·元夕</p>
           <p>西江月·夜行黄沙道中</p>
       </div>             

    </body>

父元素的第n个子节点

我们可以指定选择的元素 是父元素的第几个子节点

使用 nth-child

比如，我们要选择唐诗和宋词的第一个作者，

也就是说选择的是第2个子元素，并且是span类型

所以这样可以这样写 span:nth-child(2) ，

如果你不加节点类型限制，直接这样写 :nth-child(2)

就是选择所有位置为第2个的所有元素，不管是什么类型

父元素的倒数第n个子节点

也可以反过来，选择的是父元素的 倒数第几个子节点 ，使用 nth-last-child

比如：

p:nth-last-child(1)

就是选择第倒数第1个子元素，并且是p元素

父元素的第几个某类型的子节点

我们可以指定选择的元素是父元素的第几个 某类型的 子节点

使用 nth-of-type

比如，

我们要选择唐诗和宋词的第一个作者，

可以像上面那样思考：选择的是第2个子元素，并且是span类型

所以这样可以这样写 span:nth-child(2) ，

还可以这样思考，选择的是 第1个span类型 的子元素

所以也可以这样写 span:nth-of-type(1)

父元素的倒数第几个某类型的子节点

当然也可以反过来，选择父元素的 倒数第几个某类型 的子节点

使用 nth-last-of-type

像这样

p:nth-last-of-type(2)

奇数节点和偶数节点

如果要选择的是父元素的 偶数节点，使用 nth-child(even)

比如

p:nth-child(even)

如果要选择的是父元素的 奇数节点，使用 nth-child(odd)

p:nth-child(odd)

如果要选择的是父元素的 某类型偶数节点，使用 nth-of-type(even)

如果要选择的是父元素的 某类型奇数节点，使用 nth-of-type(odd)

相邻兄弟节点选择

上面的例子里面，我们要选择唐诗和宋词的第一个作者

还有一种思考方法，就是选择 h3 后面紧跟着的兄弟节点 span。

这就是一种相邻兄弟关系，可以这样写 h3 + span

表示元素紧跟关系的是 加号

后续所有兄弟节点选择

如果要选择是选择 h3 后面所有的兄弟节点 span，可以这样写 h3 ~ span

frame切换/窗口切换

如果我们要选择下图方框中所有的蔬菜，使用css选择，怎么写表达式？

当然，要先查看到它们的html元素特征

在这里插入图片描述

如果按照之前的编写方式结果会一片空白,说明没有选择到class属性值为plant的元素,因为这些元素是在一个叫iframe的元素中的。这个 iframe 元素非常的特殊，在html语法中，frame 元素或者iframe元素的内部会包含一个 被嵌入的 另一份html文档。

在我们使用selenium打开一个网页是，我们的操作范围缺省是当前的 html ，并不包含被嵌入的html文档里面的内容。如果我们要操作被嵌入的 html 文档中的元素，就必须 切换操作范围 到被嵌入的文档中。

怎么切换呢？使用 WebDriver 对象的 switch_to 属性，像这样

wd.switch_to.frame(frame_reference) # frame_reference 可以是 frame 元素的属性 name 或者 ID

比如这里，就可以填写 iframe元素的id ‘frame1’ 或者 name属性值 ‘innerFrame’。

像这样 : wd.switch_to.frame('frame1') 或者 :wd.switch_to.frame('innerFrame')

也可以填写frame 所对应的 WebElement 对象。

我们可以根据frame的元素位置或者属性特性，使用find系列的方法，选择到该元素，得到对应的WebElement对象

比如，这里就可以写 wd.switch_to.frame(wd.find_element_by_tag_name("iframe"))

然后，就可以进行后续操作frame里面的元素了。

上面的例子的正确代码如下

from selenium import webdriver

wd = webdriver.Chrome(r'd:\webdrivers\chromedriver.exe')

wd.get('http://cdn1.python3.vip/files/selenium/sample2.html')


# 先根据name属性值 'innerFrame'，切换到iframe中
wd.switch_to.frame('innerFrame')

# 根据 class name 选择元素，返回的是 一个列表
elements = wd.find_elements_by_class_name('plant')

for element in elements:
    print(element.text)

如果我们已经切换到某个iframe里面进行操作了，那么后续选择和操作界面元素就都是在这个frame里面进行的。这时候，如果我们又需要操作主html（我们把最外部的html称之为主html）里面的元素了呢？

怎么切换回原来的主html呢？

很简单，写如下代码即可

wd.switch_to.default_content()

例如，在上面代码操作完 frame里面的元素后，需要点击主html 里面的按钮，就可以这样写

from selenium import webdriver

wd = webdriver.Chrome(r'd:\webdrivers\chromedriver.exe')

wd.get('http://cdn1.python3.vip/files/selenium/sample2.html')


# 先根据name属性值 'innerFrame'，切换到iframe中
wd.switch_to.frame('innerFrame')

# 根据 class name 选择元素，返回的是 一个列表
elements = wd.find_elements_by_class_name('plant')

for element in elements:
    print(element.text)

# 切换回 最外部的 HTML 中
wd.switch_to.default_content()

# 然后再 选择操作 外部的 HTML 中 的元素
wd.find_element_by_id('outerbutton').click()

wd.quit()

切换到新的窗口

在网页上操作的时候，我们经常遇到，点击一个链接或者按钮，就会打开一个 新窗口 。

如果我们用Selenium写自动化程序 在新窗口里面打开一个新网址，并且去自动化操作新窗口里面的元素，会有什么问题呢？问题就在于，即使新窗口打开了，这时候，我们的 WebDriver对象对应的还是老窗口，自动化操作也还是在老窗口进行，

如果我们要到新的窗口里面操作，该怎么做呢？

可以使用Webdriver对象的switch_to属性的 window方法，如下所示：

wd.switch_to.window(handle)

WebDriver对象有window_handles 属性，这是一个列表对象，里面包括了当前浏览器里面所有的窗口句柄。

所谓句柄，大家可以想象成对应网页窗口的一个ID，

那么我们就可以通过类似下面的代码，

for handle in wd.window_handles:
    # 先切换到该窗口
    wd.switch_to.window(handle)
    # 得到该窗口的标题栏字符串，判断是不是我们要操作的那个窗口
    if 'Bing' in wd.title:
        # 如果是，那么这时候WebDriver对象就是对应的该该窗口，正好，跳出循环，
        break

依次获取 wd.window_handles 里面的所有句柄对象，并且调用 wd.switch_to.window(handle) 方法，切入到每个窗口，然后检查里面该窗口对象的属性（可以是标题栏，地址栏），判断是不是我们要操作的那个窗口，如果是，就跳出循环。

怎样切换到原来的窗口

仍然使用上面的方法，依次切入窗口，然后根据标题栏之类的属性值判断。

更省事的方法。

# mainWindow变量保存当前窗口的句柄
mainWindow = wd.current_window_handle
#通过前面保存的老窗口的句柄，自己切换到老窗口
wd.switch_to.window(mainWindow)

选择框

常见的选择框包括： radio单选框、checkbox多选框、select下拉框

radio单选框

radio框选择选项，直接用WebElement的click方法，模拟用户点击就可以了。

比如, 我们要在下面的html中：

先打印当前选中的老师名字
再选择小雷老师

<div id="s_radio">
  <input type="radio" name="teacher" value="小江老师">小江老师<br>
  <input type="radio" name="teacher" value="小雷老师">小雷老师<br>
  <input type="radio" name="teacher" value="小凯老师" checked="checked">小凯老师
</div>

对应的代码如下

# 获取当前选中的元素
element = wd.find_element_by_css_selector(
  '#s_radio input[checked=checked]')
print('当前选中的是: ' + element.get_attribute('value'))

# 点选 小雷老师
wd.find_element_by_css_selector(
  '#s_radio input[value="小雷老师"]').click()

checkbox多选框

对checkbox进行选择，也是直接用 WebElement 的 click 方法，模拟用户点击选择。

需要注意的是，要选中checkbox的一个选项，必须 先获取当前该复选框的状态 ，如果该选项已经勾选了，就不能再点击。否则反而会取消选择。

比如, 我们要在下面的html中：选中小雷老师

<div id="s_checkbox">
  <input type="checkbox" name="teacher" value="小江老师">小江老师<br>
  <input type="checkbox" name="teacher" value="小雷老师">小雷老师<br>
  <input type="checkbox" name="teacher" value="小凯老师" checked="checked">小凯老师
</div>

我们的思路可以是这样：

先把已经选中的选项全部点击一下，确保都是未选状态
再点击小雷老师

示例代码

# 先把 已经选中的选项全部点击一下
elements = wd.find_elements_by_css_selector(
  '#s_checkbox input[checked="checked"]')

for element in elements:
    element.click()

# 再点击 小雷老师
wd.find_element_by_css_selector(
  "#s_checkbox input[value='小雷老师']").click()

select下拉框

radio框及checkbox框都是input元素，只是里面的type不同而已。

select框则是一个新的select标签，大家可以对照浏览器网页内容查看一下

对于Select 选择框， Selenium 专门提供了一个 Select类 进行操作。

Select类提供了如下的方法

select_by_value

根据选项的 value属性值 ，选择元素。

比如，下面的HTML，

<option value="foo">Bar</option>

就可以根据 foo 这个值选择该选项，

s.select_by_value('foo')

select_by_index

根据选项的 次序 （从0开始），选择元素

select_by_visible_text

根据选项的 可见文本 ，选择元素。

比如，下面的HTML，

<option value="foo">Bar</option>

就可以根据 Bar 这个内容，选择该选项

s.select_by_visible_text('Bar')

deselect_by_value

根据选项的value属性值， 去除 选中元素

deselect_by_index

根据选项的次序，去除 选中元素

deselect_by_visible_text

根据选项的可见文本，去除 选中元素

deselect_all

去除 选中所有元素

Select单选框

对于 select单选框，操作比较简单：

不管原来选的是什么，直接用Select方法选择即可。

例如，选择示例里面的小雷老师，示例代码如下

# 导入Select类
from selenium.webdriver.support.ui import Select

# 创建Select对象
select = Select(wd.find_element_by_id("ss_single"))

# 通过 Select 对象选中小雷老师
select.select_by_visible_text("小雷老师")

Select多选框

对于select多选框，要选中某几个选项，要注意去掉原来已经选中的选项。

例如，我们选择示例多选框中的小雷老师和小凯老师

可以用select类的deselect_all方法，清除所有已经选中的选项。

然后再通过 select_by_visible_text方法选择小雷老师和小凯老师。

示例代码如下：

# 导入Select类
from selenium.webdriver.support.ui import Select

# 创建Select对象
select = Select(wd.find_element_by_id("ss_multi"))

# 清除所有 已经选中 的选项
select.deselect_all()

# 选择小雷老师 和 小凯老师
select.select_by_visible_text("小雷老师")
select.select_by_visible_text("小凯老师")

实用技巧

Selenium自动化技巧

窗口大小

获取窗口大小

driver.get_window_size()

改变窗口大小

driver.set_window_size(x, y)

获取当前窗口标题

driver.title

获取当前窗口URL地址

driver.current_url

截屏

from selenium import  webdriver

driver = webdriver.Chrome()
driver.implicitly_wait(5)

# 打开网站
driver.get('https://www.baidu.com/')

# 截屏保存为图片文件
driver.get_screenshot_as_file('1.png')

手机模式打开Chrome

我们可以通过 desired_capabilities 参数，指定以手机模式打开chrome浏览器

参考代码，如下

from selenium import webdriver

mobile_emulation = { "deviceName": "Nexus 5" }

chrome_options = webdriver.ChromeOptions()

chrome_options.add_experimental_option("mobileEmulation", mobile_emulation)

driver = webdriver.Chrome( desired_capabilities = chrome_options.to_capabilities())

driver.get('http://www.baidu.com')

input()
driver.quit()

上传文件

有时候，网站操作需要上传文件。比如，著名的在线图片压缩网站： https://tinypng.com/

通常，网站页面上传文件的功能，是通过 type 属性为 file 的 HTML input 元素实现的。

如下所示：

<input type="file" multiple="multiple">

使用selenium自动化上传文件，我们只需要定位到该input元素，然后通过 send_keys 方法传入要上传的文件路径即可。如下所示：

# 先定位到上传文件的 input 元素
ele = wd.find_element_by_css_selector('input[type=file]')

# 再调用 WebElement 对象的 send_keys 方法
ele.send_keys(r'h:\g02.png')

如果需要上传多个文件，可以多次调用send_keys，如下

ele = wd.find_element_by_css_selector('input[type=file]')
ele.send_keys(r'h:\g01.png')
ele.send_keys(r'h:\g02.png')

自动化Edge浏览器

自动化基于Chromium内核的微软最新Edge浏览器，首先需要查看Edge的版本。

点击菜单 帮助和反馈 > 关于Microsoft Edge ，在弹出界面中，查看到版本，比如

版本 79.0.309.71 (官方内部版本) (64 位)

然后点击这里，打开Edge浏览器驱动下载网页，并选择下载对应版本的驱动。

在自动化代码中，指定使用Edge Webdriver类，并且指定 Edge 驱动路径，如下所示

from selenium import webdriver

driver = webdriver.Edge(r'd:\tools\webdrivers\msedgedriver.exe')

driver.get('http://www.51job.com')

Xpath选择器

XPath (XML Path Language) 是由国际标准化组织W3C指定的，用来在 XML 和 HTML 文档中选择节点的语言。

目前主流浏览器 (chrome、firefox，edge，safari) 都支持XPath语法，xpath有 1 和 2 两个版本，目前浏览器支持的是 xpath 1的语法。

既然已经有了CSS，为什么还要学习 Xpath呢？因为

有些场景用 css 选择web 元素很麻烦，而xpath 却比较方便。
另外 Xpath 还有其他领域会使用到，比如爬虫框架 Scrapy，手机App框架 Appium。

绝对路径选择

自动化程序要使用Xpath来选择web元素，应该调用 WebDriver对象的方法 find_element_by_xpath 或者 find_elements_by_xpath，像这样：

elements = driver.find_elements_by_xpath("/html/body/div")

相对路径选择

‘//’ 符号也可以继续加在后面,比如，要选择所有的 div 元素里面的所有的 p 元素，不管div 在什么位置，也不管p元素在div下面的什么位置，则可以这样写 //div//p

对应的自动化程序如下

elements = driver.find_elements_by_xpath("//div//p")

通配符

如果要选择所有div节点的所有直接子节点，可以使用表达式 //div/*

*是一个通配符，对应任意节点名的元素，等价于CSS选择器div >

代码如下：

elements = driver.find_elements_by_xpath("//div/*")
for element in elements:
    print(element.get_attribute('outerHTML'))

根据属性选择

Xpath 可以根据属性来选择元素。

根据属性来选择元素是通过这种格式来的 [@属性名='属性值']

注意：

属性名注意前面有个@
属性值一定要用引号，可以是单引号，也可以是双引号

根据id属性选择

选择 id 为 west 的元素，可以这样 //*[@id='west']

根据class属性选择

选择所有 select 元素中 class为 single_choice 的元素，可以这样 //select[@class='single_choice']

如果一个元素class 有多个，比如

<p id="beijing" class='capital huge-city'>
    北京    
</p>

如果要选它，对应的 xpath 就应该是 //p[@class="capital huge-city"]

不能只写一个属性，像这样 //p[@class="capital"] 则不行

根据其他属性

同样的道理，我们也可以利用其它的属性选择

比如选择具有multiple属性的所有页面元素，可以这样 //*[@multiple]

属性值包含字符串

要选择 style属性值包含 color 字符串的页面元素，可以这样 //*[contains(@style,'color')]

要选择 style属性值以 color 字符串 开头 的页面元素，可以这样 //*[starts-with(@style,'color')]

要选择 style属性值以某个字符串结尾的页面元素，大家可以推测是 //*[ends-with(@style,'color')]，但是，很遗憾，这是xpath 2.0 的语法，目前浏览器都不支持

按次序选择

某类型第几个子元素

要选择 p类型第2个的子元素，就是

//p[2]

注意，选择的是 p类型第2个的子元素 ，不是 第2个子元素，并且是p类型

再比如，要选取父元素为div 中的 p类型第2个子元素

//div/p[2]

第几个子元素

也可以选择第2个子元素，不管是什么类型，采用通配符

比如选择父元素为div的第2个子元素，不管是什么类型

//div/*[2]

某类型倒数第几个子元素

当然也可以选取倒数第几个子元素

比如：

选取p类型倒数第1个子元素

//p[last()]

选取p类型倒数第2个子元素

//p[last()-1]

选择父元素为div中p类型倒数第3个子元素

//div/p[last()-2]

范围选择

xpath还可以选择子元素的次序范围。

比如，

选取option类型第1到2个子元素

//option[position()<=2]

或者

//option[position()<3]

选择class属性为multi_choice的前3个子元素

//*[@class='multi_choice']/*[position()<=3]

选择class属性为multi_choice的后3个子元素

//*[@class='multi_choice']/*[position()>=last()-2]

为什么不是 last()-3 呢？因为

last() 本身代表最后一个元素

last()-1 本身代表倒数第2个元素

last()-2 本身代表倒数第3个元素

组选择、父节点、兄弟节点

组选择

css有组选择，可以同时使用多个表达式，多个表达式选择的结果都是要选择的元素

css 组选择，表达式之间用逗号隔开

xpath也有组选择，是用竖线隔开多个表达式

比如，要选所有的option元素和所有的 h4 元素，可以使用

//option | //h4

等同于CSS选择器

option , h4

再比如，要选所有的 class 为 single_choice 和 class 为 multi_choice 的元素，可以使用

//*[@class='single_choice'] | //*[@class='multi_choice']

等同于CSS选择器

.single_choice , .multi_choice

选择父节点

xpath可以选择父节点，这是css做不到的。

某个元素的父节点用 /.. 表示

比如，要选择 id 为 china 的节点的父节点，可以这样写 //*[@id='china']/.. 。

当某个元素没有特征可以直接选择，但是它有子节点有特征，就可以采用这种方法，先选择子节点，再指定父节点。

还可以继续找上层父节点，比如 //*[@id='china']/../../..

兄弟节点选择

前面学过 css选择器，要选择某个节点的后续兄弟节点，用 波浪线

xpath也可以选择后续兄弟节点，用这样的语法 following-sibling::

比如，要选择 class 为 single_choice 的元素的所有后续兄弟节点 //*[@class='single_choice']/following-sibling::*

等同于CSS选择器 .single_choice ~ *

如果，要选择后续节点中的div节点，就应该这样写 //*[@class='single_choice']/following-sibling::div

xpath还可以选择 前面的 兄弟节点，用这样的语法 preceding-sibling::

比如，要选择 class 为 single_choice 的元素的所有前面的兄弟节点 //*[@class='single_choice']/preceding-sibling::*

而CSS选择器目前还没有方法选择前面的兄弟节点

selenium 注意点

我们的代码：

先选择示例网页中，id是china的元素
然后通过这个元素的WebElement对象，使用find_elements_by_xpath，选择里面的p元素，

# 先寻找id是china的元素
china = wd.find_element_by_id('china')

# 再选择该元素内部的p元素
elements = china.find_elements_by_xpath('//p')

# 打印结果
for element in elements:
    print('----------------')
    print(element.get_attribute('outerHTML'))

运行发现，打印的不仅仅是 china内部的p元素，而是所有的p元素。

要在某个元素内部使用xpath选择元素，需要 在xpath表达式最前面加个点 。

像这样

elements = china.find_elements_by_xpath('.//p')
 class 为 multi_choice 的元素，可以使用

//[@class=‘single_choice’] | //[@class=‘multi_choice’]


等同于CSS选择器

.single_choice , .multi_choice


#### 选择父节点

xpath可以选择父节点， 这是css做不到的。

某个元素的父节点用 `/..` 表示

比如，要选择 id 为 china 的节点的父节点，可以这样写 `//*[@id='china']/..` 。

当某个元素没有特征可以直接选择，但是它有子节点有特征， 就可以采用这种方法，先选择子节点，再指定父节点。

还可以继续找上层父节点，比如 `//*[@id='china']/../../..`

#### 兄弟节点选择

前面学过 css选择器，要选择某个节点的后续兄弟节点，用 **波浪线**

xpath也可以选择 后续 兄弟节点，用这样的语法 `following-sibling::`

比如，要选择 class 为 single_choice 的元素的所有后续兄弟节点 `//*[@class='single_choice']/following-sibling::*`

等同于CSS选择器 `.single_choice ~ *`

如果，要选择后续节点中的div节点， 就应该这样写 `//*[@class='single_choice']/following-sibling::div`

xpath还可以选择 `前面的` 兄弟节点，用这样的语法 `preceding-sibling::`

比如，要选择 class 为 single_choice 的元素的所有前面的兄弟节点 `//*[@class='single_choice']/preceding-sibling::*`

而CSS选择器目前还没有方法选择前面的 兄弟节点

## selenium 注意点

我们的代码：

- 先选择示例网页中，id是china的元素
- 然后通过这个元素的WebElement对象，使用find_elements_by_xpath，选择里面的p元素，

```py
# 先寻找id是china的元素
china = wd.find_element_by_id('china')

# 再选择该元素内部的p元素
elements = china.find_elements_by_xpath('//p')

# 打印结果
for element in elements:
    print('----------------')
    print(element.get_attribute('outerHTML'))

运行发现，打印的不仅仅是 china内部的p元素，而是所有的p元素。

要在某个元素内部使用xpath选择元素，需要 在xpath表达式最前面加个点 。

像这样

elements = china.find_elements_by_xpath('.//p')

敲木鱼_

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python+Selenium Web自动化

Python+Selenium Web自动化

selenium

浏览器驱动

selenium的安装

selenium简单示例

选择元素的基本方法

根据元素id属性选择元素

根据class属性、tag名选择元素

Selenium设置等待超时时间

操控元素的基本方法

css表达式 - 上

css表达式-下

选择语法联合使用

组选择

按次序选择子节点

父元素的第n个子节点

父元素的倒数第n个子节点

父元素的第几个某类型的子节点

父元素的倒数第几个某类型的子节点

奇数节点和偶数节点

相邻兄弟节点选择

后续所有兄弟节点选择

frame切换/窗口切换

切换到新的窗口

选择框

radio单选框

checkbox多选框

select下拉框

Select单选框

Select多选框

实用技巧

更多动作

ActionChains

直接执行javascript

冻结界面

弹出对话框

Alter

Confirm

Prompt

Selenium自动化技巧

窗口大小

获取当前窗口标题

获取当前窗口URL地址

截屏

手机模式打开Chrome

上传文件

自动化Edge浏览器

Xpath选择器

绝对路径选择

相对路径选择

通配符

根据属性选择

根据id属性选择

根据class属性选择

根据其他属性

属性值包含字符串

按次序选择

某类型第几个子元素

第几个子元素

某类型倒数第几个子元素

范围选择

组选择、父节点、兄弟节点

组选择

选择父节点

兄弟节点选择

selenium 注意点