爬虫初步-selenuim

最新推荐文章于 2023-09-22 13:40:31 发布

Alter__

最新推荐文章于 2023-09-22 13:40:31 发布

阅读量196

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/Alter__/article/details/104630671

版权

python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

爬虫第一步，观察网站

发现是动态渲染页面的网站，使用selenuim，因为所见即所得，太快乐了。再看看页面的结构发现这是一个需要点击更换条目爬取的，而且有两层子页面。
所以待解决的问题如下：

1. 如何实现点击更换条目
2. 如何实现子页面的爬取

爬虫第二步，使用selenuim

涉及的包有：

from selenium import webdriver
from selenium.webdriver.common.by import By                         #配合等待使用
from selenium.webdriver.support import 	expected_conditions as EC   #配合等待使用
from selenium.webdriver.support.wait import WebDriverWait           #等待页面更新
from selenium.webdriver import ActionChains			    #动作链，没有用到

1.实现点击更换目录

url = ''				 #输入你要爬取的页面

#不弹出浏览器
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(options=chrome_options)

browser.get(ur)
wait = WebDriverWait(browser, 10)
browser.switch_to.frame('')		#切换子页面，输入frame的id或者name

tree = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '')))	#输入点击css选择器
tree.click()	#实现点击效果

2.切换子页面

browser.switch_to.frame('')		#切换子页面，输入frame的id或者name
point = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '')))
browser.switch_to.parent_frame()	#切回上一层页面

注意事项：
1. selenium是所见即所得，所以如果有点击展开选框等，需要操作而不是一开始就呈现出来的页面，需要写一定的页面交互代码（就是点击操作等），否则selenium是找不到的。
2. 由于有些页面加载很慢，所以显示等待是很有必要的。
3. 使用chrome，控制台获取页面代码，一开始呈现出来的就是presence_of_element_located()可以获取的。
4. 控制台处，鼠标右键copy->copy-selector获得css选择器能找到的内容，不用自己输入了。

Alter__

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫初步-selenuim

爬虫第一步，观察网站发现是动态渲染页面的网站，使用selenuim，因为所见即所得，太快乐了。再看看页面的结构发现这是一个需要点击更换条目爬取的，而且有两层子页面。所以待解决的问题如下：1. 如何实现点击更换条目2. 如何实现子页面的爬取爬虫第二步，使用selenuim1.实现点击更换目录使用selenium...
复制链接

扫一扫