再学爬虫---selenium：

最新推荐文章于 2023-12-27 19:14:24 发布

Shao0000

最新推荐文章于 2023-12-27 19:14:24 发布

阅读量130

点赞数

分类专栏：爬虫 python 再学爬虫文章标签：爬虫 selenium

本文链接：https://blog.csdn.net/weixin_42903932/article/details/89432390

版权

python 同时被 3 个专栏收录

55 篇文章 0 订阅

订阅专栏

爬虫

14 篇文章 0 订阅

订阅专栏

再学爬虫

2 篇文章 0 订阅

订阅专栏

再学爬虫—selenium：

selenium是一个自动化测试工具，利用它可以驱动浏览器完成指定操作。

使用之前要声明浏览器对象：

from selenium import webdriver
browser=webdriver.Chrome()    #谷歌浏览器
browser=webdriver.Firefox()   #火狐浏览器
browser=webdriver.Edge()      #IE浏览器 版本更新好像没用了
browser=webdriver.PhantomJS() #无头浏览器

还有这种可以模拟浏览器操作且无界面：

chrome_options=webdriver.ChromeOptions()
chrome_options.add_argument("--headless")
browser=webdriver.Chrome(chrome_options=chrome_options)

基本用法：

访问页面：

browser.get("url")

查找单个节点：

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
......

返回的是一个WebElement对象

查找多个节点：

find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector
......

其实就是在查找单个节点方法上加了一个s，但是返回的是一个列表。列表里面还是WebElement对象。

节点交互：

输入文字：

send_keys("输入的文字")

清空文字：

clear()

点击按钮：

click()

还有很多，这里就不一一列出了。

延时等待：

隐式等待：

如果selenium没有在DOM中找到节点，将继续等待，超出设定时间后，则抛出找不到节点的异常。也就是说，当查找节点而节点没有立即出现的时候，隐式等待将等你带一段时间再查找DOM，默认的时间是0。

browser.imlicitly_wait(10) #10秒

显示等待：

如果在规定时间内加载出来了这个节点，就返回查找的节点；如果到了规定时间依然没有加载出来该节点，则抛出超时异常。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

wait=WebDriverWait(browser,10)  #10秒
input=wait.until(EC.presence_of_element_localed(By.ID,"q"))

以上是我在爬虫过程中使用的比较多的。

Shao0000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
再学爬虫---selenium：

再学爬虫—selenium：selenium是一个自动化测试工具，利用它可以驱动浏览器完成指定操作。使用之前要声明浏览器对象：from selenium import webdriverbrowser=webdriver.Chrome() #谷歌浏览器browser=webdriver.Firefox() #火狐浏览器browser=webdriver.Edge() ...
复制链接

扫一扫