浏览器自动化selenium

IT小艺

已于 2024-05-29 11:57:08 修改

阅读量254

点赞数 2

文章标签： selenium 浏览器自动化 python

于 2023-01-17 22:25:30 首次发布

本文链接：https://blog.csdn.net/qq_64079631/article/details/128721023

版权

编写基于浏览器自动化的操作代码


实例化浏览器对象bro=webdriver.Chrome(executable_path=./chromedriver.exe’)
发起请求 -----bro.get(url)
标签定位 -----find系列操作
标签交互（如输入）----send_keys(‘xxx’)
执行js程序-----excute_script(“jsCode”)
前进和后退(导航栏上的前进和后退按钮)---- forward(), back(), refresh()
关闭浏览器------quit()
关闭新页面------close()
获得当前所有打开的窗口的句柄（用于多窗口转换操作）----all_handles=bro.window_handles
获取当前窗口句柄----current_window_handle
切换窗口句柄------switch_to.window(需要切换到的句柄)
切换到原始窗口-----bro.swithc_to.window(bro.window_handles[0])
切换到最新窗口----bro.switch_to.window(bro.window_handles[-1])
页面截图-----bro.save_screenshot("./aa.png") 参数为保存路径
元素截图-----a. screenshot(’./aa.png’) a为定位到的元素
页面源码获取 ----bro.page_source
点击操作-----btn.click() btn为定位到的按钮
刷新操作-----bro.refresh()

python自动化测试代码报错：selenium.common.exceptions.NoSuchElementException: Message: no such element......

明明定位没有问题，在浏览器查询元素也唯一，但一直找不到元素，原因可能是：

没有切换frame

有一种节点叫做iframe，也就是子Frame 相当于页面的子页面，他的结构和外部网页的结构完全一致。Selenium打开一个页面后默认是Frame里操作，此时页面如果有子Frame也就是iframe，他是不能获取子Frame里的节点的这个时候就可以用switch_to.frame方法切换Frame。

解决方案：

切换浏览器对象的作用域


frame = driver.find_element(By.CSS_SELECTOR,'iframe[id="login_frame"]')
driver.swich_to.frame(frame)

或者


bro.switch_to.frame('login_frame')

多标签页

用selenium点击某个按钮，然后生成了一个新的标签页（网页）这个时候你去定位这个新的标签页（网页）里面的标签不管用你用什么去定位都定位不到，因为在你的视角浏览器会自动帮你跳转到第二个标签页，但是selenium它还在第一个标签页，然后就变成了你写你的不管selenium什么事了。所以要用到browser.switch_to.window(browser.window_handles[1])。需要注意的是window_handles的索引是从0开始的。

解决方案：

先打印窗口的名称看看


current_handle = driver.current_window_handle
handles = driver.window_handles
for handle in handles:
           driver.switch_to.window(handle)
           time.sleep(1)
           print(driver.title, driver.current_window_handle)

切换到最新的窗口


bro.switch_to.window(bro.window_handles[-1])#浏览器对象切换到最新窗口

例如


# 获取当前句柄
ele = bro.current_window_handle
print(f"当前句柄是：{ele}")
#获取所有句柄
ele_all = bro.window_handles
print(f"所有句柄号：{ele_all}")
# 切换句柄号
bro.switch_to.window(ele_all[-1])

3、页面元素没有加载完成

网速慢，代码又执行过快，所以找不到元素

解决方案：设置隐形等待或显性等待解决


bro.implicitly_wait(1)#隐式等待1秒

隐式等待是其实可以理解成在规定的时间范围内，浏览器在不停的刷新页面，直到找到相关元素或者时间结束。

4、代码已经操作到，但页面尚未跳转到某一页

设置显性等待


try:  
    WebDriverWait(bro, 5).until(EC.alert_is_present(), 'Timed out waiting for alerts to appear')
    alert = bro.switch_to.alert
    alert.accept()
except TimeoutException:
    print("Timeout and No Alert Appearing")

sleep()强制等待


sleep(1)#等待1秒

5.xpath有问题

复制完整XPATH看看里面有没有tbody 标签，这个一般是浏览器加上去的，把这个标签去掉

比如/html/body/div[1]/tbody/div[2]/div 改成 /html/body/div[1]/div[2]/div 就好了

xpath并不是固定的，尽量少用xpath

6.类名有问题

类名并不是唯一的，使用类名定位可能定位到别的元素去了


bro.find_element_by_class_name('icon search2')

类名中间有空格，这里其实是由两个类名（class）组成的,而在find_element_by_class_name()方法中只能选择一个类名。所以把只能选择其中一个


bro.find_element_by_class_name('icon')
或者
bro.find_element_by_class_name('search2')

如果这两个className中有一个是可以唯一确定这个元素，可以选择其中一个使用。

如果不能唯一确定，就先findElements，然后get(i);

7.动态ID

通过ID寻找不到元素，有可能是ID是动态的，每次打开页面，元素的ID都不一样，

这时可以通过别的寻找方法

8.点击失败

找到元素后，click没有作用，可以试试用action里的

鼠标操作点击

例：


from selenium import  webdriver
from selenium.webdriver.common.action_chains import ActionChains

el = driver.find_element(By.ID,ID)  # 找到元素
ActionChains(driver).move_to_element(el).click().perform() #鼠标悬停

ActionChains(driver).click_and_hold(el).perform()#左击
ActionChains(driver).context_click(el).perform()#右击
ActionChains(driver).double_click(el).perform()#双击

JS操作


from selenium import  webdriver
el = driver.find_element(By.ID,ID)  # 找到元素
driver.execute_script("arguments[0].click();", el)

键盘操作


 from selenium.webdriver.common.keys import Keys
  #在使用键盘按键方法前需要先导入keys 类包。

    send_keys(Keys.BACK_SPACE) 删除键（BackSpace）
    send_keys(Keys.SPACE) 空格键(Space)
    send_keys(Keys.TAB) 制表键(Tab)
    send_keys(Keys.ESCAPE) 回退键（Esc）
    send_keys(Keys.ENTER) 回车键（Enter）
    send_keys(Keys.CONTROL,'a') 全选（Ctrl+A）
    send_keys(Keys.CONTROL,'c') 复制（Ctrl+C）
    send_keys(Keys.CONTROL,'x') 剪切（Ctrl+X）
    send_keys(Keys.CONTROL,'v') 粘贴（Ctrl+V）
    send_keys(Keys.F1) 键盘F1
    ……
    send_keys(Keys.F12) 键盘F12

元素在页面下方，需要滚动页面才能点到


bro.execute_script('window.scrollBy(0,250)')  # 向下滚动

10.

获取元素进行点击等操作时，最好获取input等元素，有的元素是不可点击的，如span

11.隐藏元素

点击图标的时候隐藏的元素才会显现，等你再次点击其他地方的时候就会再次隐藏掉

解决方法：鼠标操作


# 定位图标
fox.find_element_by_class_name('basic-login-img').click()
# 实例化鼠标操作
action = ActionChains(fox)
# 定位到元素
ele1 = fox.find_element_by_class_name('margin')
# 鼠标点击
action.click(ele1)

上面的方法都不行的话切换为手机版的网页试试。

点击这个，再Ctrl+R刷新

案例：

用edge浏览器爬取QQ邮件并到百度翻译进行翻译


from time import sleep
from msedge.selenium_tools import EdgeOptions
from msedge.selenium_tools import Edge
import csv

#规避检测
edge_options = EdgeOptions()
edge_options.use_chromium = True
edge_options.add_argument('--disable-blink-features=AutomationControlled')

bro = Edge(executable_path='msedgedriver.exe',options=edge_options)#创建浏览器对象
bro.maximize_window()#最大化浏览器
bro.get('https://mail.qq.com/')  #网站登录页面
bro.implicitly_wait(1)#隐式等待1秒

#---------------点击头像登录---------
sleep(1)
bro.switch_to.frame('login_frame')#切换作用域
bro.find_element_by_id('img_out_').click()
sleep(5)
bro.find_element_by_id("folder_1").click()#找到收件箱并点击
sleep(1)
bro.switch_to.frame("mainFrame")  # 切换作用域
mu=bro.find_element_by_xpath('//*[@id="div_showbefore"]/table[8]')#lable标签元素
sleep(1)

out_list=[]
sendInfo = mu.find_elements_by_css_selector("td .tf span")[0]#找到发件人和发件人邮箱的父节点
#发件人
source = sendInfo.text
#发件人Email
sendmail = sendInfo.get_attribute("e")#获取标签的属性值  get_attribute也可以获取文本
#邮件标题
title = mu.find_element_by_css_selector(".gt u").text
#邮件内容
data = mu.find_element_by_css_selector(".gt b").text
#收件日期
dt = mu.find_element_by_css_selector(".dt div").text
out_list.append([source,sendmail,title,data,dt])

with open('./qq.csv', "a+", newline='', encoding='GBK') as f:
    writer = csv.writer(f)
    first = ['发件人', '发件人邮箱', '标题','内容', '时间']
    writer.writerow(first )
    writer.writerows(out_list)
    print("爬取结束。")

#-----------------百度翻译-----------------
bro.get('https://fanyi.baidu.com/')
bro.implicitly_wait(1)#隐式等待1秒

bro.find_element_by_class_name('app-guide-close').click()#
sleep(2)
bro.find_element_by_id('baidu_translate_input').send_keys(data)#输入翻译内容
#bro.find_element_by_id('translate-button').click()
sleep(2)
txt=bro.find_element_by_css_selector('p.ordinary-output span').text
print("翻译结果为：")
print(txt)