解决网页元素无法定位(NoSuchElementException: Unable to locate element)的几种方法

Selenium元素定位技巧
本文主要介绍了使用Selenium WebDriver处理NoSuchElementException错误的两种方法:利用WebDriverWait配合显式等待,以及使用while循环加try...except的方式。同时分享了作者在元素定位过程中的一些心得和技巧。

Python 2.7
IDE Pycharm 5.0.3

姊妹篇请见解决Selenium弹出新页面无法定位元素问题(Unable to locate element)


只解决一个问题--NoSuchElementException: Message: Unable to locate element

出错形式

这里写图片描述


出错原因

1.可能元素加载未完成

元素加载没完成,同样的路径定位,每次测试结果确是不一样的,有时候抛出错误,有时候正常!这就比较蛋疼了,也就是说,和你的定位方法半毛钱关系没有,而很大程度上取决于你的电脑和网速!

1.解决方案A:添加两行代码

wait = ui.WebDriverWait(driver,10)
wait.until(lambda driver: driver.find_element_by_方法("定位路径自己来"))

WebDriverWait(driver,10)的意思是;10秒内每隔500毫秒扫描1次页面变化,当出现指定的元素后结束。driver是前面操作webdriver.firefox()的句柄
完整的小段代码是:

from selenium import webdriver
import selenium.webdriver.support.ui as ui

driver_item=webdriver.Firefox()
url="https://movie.douban.com/"
wait = ui.WebDriverWait(driver_item,10)
driver_item.get(url)
wait.until(lambda driver: driver.find_element_by_xpath("//div[@class='fliter-wp']/div/form/div/div/label[5]"))
driver_item.find_element_by_xpath("//div[@class='fliter-wp']/div/form/div/div/label[5]").click()

1.解决方案B:使用while+try…except结合

下面来个例子,完整的可运行代码如下:

from selenium import webdriver
import time
import os

driver_item=webdriver.Firefox()
url="https://movie.douban.com/"
driver_item.get(url)

while 1:
    start = time.clock()
    try:
        driver_item.find_element_by_xpath("//div[@class='fliter-wp']/div/form/div/div/label[5]").click()
        print '已定位到元素'
        end=time.clock()
        break
    except:
        print "还未定位到元素!"

print '定位耗费时间:'+str(end-start)

运行结果如下:

还未定位到元素!
已定位到元素
定位耗费时间:0.262649990301

分析

开启页面后,并不是元素都一次性加载完成的,依赖于网速和电脑,从B方法中可见,所耗费的时间,还有一种静态的方法就是我以前常用的sleep,一般睡一秒就够了,但是对于不同电脑不同网速的情况,建议还是使用动态方法,也就是A方法,以变应变!

从代码可读性上和效率上都是A方法比较好,更加符合python的特性,简洁优美,而B方法应该是我这样初学者自己能想到的一种方法,先得自己想解决方案,然后再参考现有方法,我感觉这样才有意义。


2.本身定位方法错误

这也就是最常见的了,也是最容易犯的错误,自己对元素定位方法不够熟练,就很容易错误了,所以多想想该怎么定位才最容易,我现在最喜欢的是用xpath方法定位,DOM树的结构挺清晰的,可能我还是新手的原因吧!

2.解决方案

多查询元素定位方法,多使用多熟练,吐槽一下正则。。。相比较正则,我还是更喜欢BeautifulSoup或者xpath来用,额。。。

比方说,我要看看BeautifulSoup到底规则效果怎么样,那我会单独写个测试模块

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import re
#find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等.
# find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,
# 搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容

html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

soup=BeautifulSoup(html,"lxml")
#soup=BeautifulSoup(open('index.html'),"lxml")#若本身有html文件,则打开

#print  soup.prettify()
print soup.title
print soup.a.string
print soup.a['href']
print soup.a['class']

这个我就做个比方,什么时候我要用BS4了我会单独测试下自己的规则好不好使,毕竟不是老司机。
这里写图片描述


Tips

1.测试阶段调用Firefox来做,这样更加直观具体,到最后可以调用phantomjs.exe。

2.分模块测试自己的idea,光想远远不够。

3.最好有分屏的电脑,一屏显示代码,一屏显示实现过程


总结

遇到问题看来还是需要一步步来,分析各个模块之间的衔接性和模块完整性,单独把模块拿出来进行测试,不然一个比较大点的程序出错在哪都很费劲,而且,如果是自己写的程序,那么推荐一步步实现,哪一步该有哪一步的功能,这样逻辑才够清晰,这是写给自己的话,如果对你有帮助,我也感到很荣幸!


下篇预告

基本上已经写完豆瓣高分电影及细节的爬取了,也遇到些困难,下篇再说遇到问题和怎么解决


吐槽

哈尔滨好热,,,,学校放假了,都没地方吃饭了,,,,,实验室没几个鸟人。。。。人生不仅需要代码和论文,我还要空调和西瓜!!!
这里写图片描述


致谢

@Eastmount–[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论

@转–selenium webdriver学习(十一)-怎么等待页面元素加载完成

@阳光总在风雨后–webdriver 的三种等待方式

在使用 Selenium 进行 Web 自动化测试时,`NoSuchElementException` 是一个常见的异常,通常表示无法找到指定的页面元素。以下是一些可能的原因和相应的解决方法: ### 1. 页面加载不完全 当页面尚未完全加载时,尝试定位元素可能会失败。可以使用显式等待来确保元素在尝试定位之前已经加载完成。 ```python from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 等待元素出现 element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, "element_id")) ) ``` 这种方法会等待指定的元素出现在 DOM 中,最多等待 10 秒,如果在超时时间内元素未出现,则抛出 `TimeoutException`。 ### 2. 元素存在于 iframe 或 frame 中 如果目标元素位于 `iframe` 或 `frame` 中,必须先切换到该 `iframe` 或 `frame`,然后才能定位其中的元素。 ```python # 切换到指定的 iframe driver.switch_to.frame("frame_name_or_id") # 定位 iframe 中的元素 element = driver.find_element(By.ID, "element_in_frame_id") # 操作完成后切换回主文档 driver.switch_to.default_content() ``` ### 3. 元素 ID 或其他选择器不正确 确保使用的元素选择器(如 ID、名称、类名、XPath 等)是正确的。可以通过浏览器的开发者工具检查元素的属性,确认选择器是否正确。 ```python # 使用 ID 定位元素 element = driver.find_element(By.ID, "correct_element_id") # 使用 XPath 定位元素 element = driver.find_element(By.XPATH, "//div[@class='example-class']") ``` ### 4. 元素位于弹出窗口或新标签页中 如果点击某个链接或按钮后打开了一个新的窗口或标签页,Selenium 默认仍然在原始窗口上操作。可以通过切换到新窗口来解决这个问题。 ```python # 获取当前所有窗口句柄 handles = driver.window_handles # 切换到新打开的窗口 for handle in handles: if handle != driver.current_window_handle: driver.switch_to.window(handle) break # 定位新窗口中的元素 element = driver.find_element(By.ID, "element_in_new_window") ``` ### 5. 元素被动态生成或异步加载 有些页面元素是通过 JavaScript 动态生成的,或者通过 AJAX 请求异步加载的。这种情况下,直接使用 `find_element` 可能无法找到元素。可以使用显式等待来等待元素可见,或者执行 JavaScript 脚本来获取元素。 ```python # 等待元素可见 element = WebDriverWait(driver, 10).until( EC.visibility_of_element_located((By.ID, "dynamic_element_id")) ) # 或者使用 JavaScript 获取元素 element = driver.execute_script("return document.getElementById('dynamic_element_id');") ``` ### 6. 浏览器缩放或分辨率问题 有时,浏览器的缩放比例或分辨率可能会影响元素的可见性。可以通过设置浏览器的缩放比例或调整窗口大小来解决这个问题。 ```python # 设置浏览器窗口大小 driver.set_window_size(1920, 1080) # 或者最大化浏览器窗口 driver.maximize_window() ``` ### 7. 浏览器兼容性问题 某些浏览器可能对特定的元素或脚本支持不佳。可以尝试更换浏览器或更新浏览器版本,以确保兼容性。 ```python from selenium import webdriver # 使用 Chrome 浏览器 driver = webdriver.Chrome() # 使用 Firefox 浏览器 driver = webdriver.Firefox() ``` ### 8. 元素被覆盖或隐藏 有时,元素可能被其他元素覆盖,或者由于 CSS 样式设置而不可见。可以通过检查元素的状态或使用 JavaScript 来操作元素。 ```python # 使用 JavaScript 点击元素 driver.execute_script("document.getElementById('hidden_element_id').click();") ``` ### 9. 网络延迟或服务器响应慢 如果页面加载速度较慢,可以适当增加等待时间,或者检查网络连接和服务器响应时间。 ```python # 设置隐式等待时间 driver.implicitly_wait(10) # 单位为秒 ``` ### 10. 元素不在当前页面上 确保目标元素确实存在于当前页面上。可以通过打印当前页面的 URL 或标题来确认当前页面是否正确。 ```python # 打印当前页面的 URL 和标题 print("Current URL:", driver.current_url) print("Page Title:", driver.title) ``` 通过以上方法,可以有效地解决 Selenium 中常见的 `NoSuchElementException` 异常问题[^1]。
评论 8
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值