爬虫万能方法---selenium

最新推荐文章于 2023-08-25 20:55:22 发布

qq_45346273

最新推荐文章于 2023-08-25 20:55:22 发布

阅读量376

点赞数 1

本文链接：https://blog.csdn.net/qq_45346273/article/details/102872998

版权

本文详细介绍了selenium在网页爬取中的应用，包括通过id、css选择器和xpath查找页面元素，讲解了不同类型的等待如强制等待、隐式等待和显式等待。此外，还分享了如何使用selenium结合PhantoJS请求页面，以及selenium的一些常用方法，如获取页面Url、元素操作、表单提交、cookie管理等。

摘要由CSDN通过智能技术生成

selenium中查找页面的方法

1.通过id查找

driver.find_element_by_id()
如：
driver.find_element_by_id('kw')

2.通过css选择器查找

driver.find_element_by_css_selector()
id:#id值
class:.class值
标签：标签名
如：
driver.find_element_by_css_selector('#kw')

3.通过xpath查找

driver.find_element_by_xpath(xpath语法)

等待的种类

1.强制等待

time.sleep()

2.隐式等待

##隐式等待就是等到页面全部加载完成，比如js，css或者图片全请求到加载到页面，也就是我们常看到的页面不在转圈圈为止，程序才会继续运行。

driver.implicitly_wait(10)

3.显式等待

## 导包
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
## 步骤：
## 1.创建等待对象
wait = WebDriverWait(
    driver,#浏览器驱动对象
    10，最大等待时长
    0.5，扫描间隔
)
## 2.wait.until(等待条件)--->等待条件成立程序才继续运行。
### 等待条件在selenium中有个专门的模块来设置了一些条件-------->expected_conditions as EC
### 最常用的条件有一下两个：
EC.presence_of_element_located((
	查找的方法：By.ID,By.XPATH,By.CAA_SELECTOR,
	查找的方法对应的查找语法
))------->只要有一个符合条件的元素加载出来就通过

EC.presence_of_all_elements_located((
	查找的方法：By.ID,By.XPATH,By.CAA_SELECTOR,
	查找的方法

最低0.47元/天解锁文章

qq_45346273

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬虫万能方法---selenium

selenium中查找页面的方法1.通过id查找driver.find_element_by_id()如：driver.find_element_by_id('kw')2.通过css选择器查找driver.find_element_by_css_selector()id:#id值class:.class值标签：标签名如：driver.find_element_by_css_...
复制链接

扫一扫