【Python3 爬虫学习笔记】动态渲染页面爬取 2 —— Selenium的使用 2

最新推荐文章于 2022-04-08 11:03:16 发布

htsait4113

最新推荐文章于 2022-04-08 11:03:16 发布

阅读量204

点赞数

分类专栏：学习笔记

学习笔记专栏收录该内容

82 篇文章 2 订阅

订阅专栏

动作链

在交互操作中，一些交互动作都是针对某个节点执行的。比如，对于输入框，我们就调用它的输入文字和清空文字方法；对于按钮，就调用它的点击方法。其实，还有另外一些操作，它们没有特定的执行对象，比如鼠标拖曳、键盘按键等，这些动作用另一种方式来执行，那就是动作链。
比如，现在实现一个节点的拖曳操作，将某个节点从一处拖曳到另外一处，可以这样实现：

from selenium import webdriver
from selenium.webdriver import ActionChains

browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
target = browser.find_element_by_css_selector('#droppable')
actions = ActionChains(browser)
actions.drag_and_drop(source, target)
actions.perform()

首先，打开页面中的一个拖曳实例，然后依次选中拖曳的节点和拖曳到的目标及诶单，接着声明ActionChains对象并将其赋值为actions变量的drag_and_drop()方法，再调用perform()方法执行动作，此时就完成了拖曳操作，如图所示：
在这里插入图片描述

执行JavaScript

对于某些操作，Selenium API并没有提供。比如，下拉进度条，它可以直接模拟运行JavaScript，此时使用execute_script()方法即可实现，代码如下：

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

这里就利用execute_script()方法将进度条下拉到最底部，然后弹出alert提示框。

获取节点信息

获取属性

我们可以使用get_attribute()方法来获取节点的属性，但是其前提是先选中这个节点，示例如下：

from selenium import webdriver
from selenium.webdriver import ActionChains

browser = webdriver.Chrome()
url = 'http://www.zhihu.com/explore'
browser.get(url)
logo = browser.find_element_by_id('zh-top-link-logo')
print(logo)
print(logo.get_attribute('class'))

运行之后，程序便会驱动浏览器打开知乎页面，然后获取知乎的logo节点，最后打印出它的class。
控制台的输出结果如下：

<selenium.webdriver.remote.webelement.WebElement (session="fd40d4cef02f55c619eeaa3c61d5cec0", element="0.4295620491046377-1")>
zu-top-link-logo

通过get_attribute()方法，然后传入想要获取的属性名，就可以得到它的值了。

获取文本值

每个WebElement节点都有text属性，直接调用这个属性就可以得到节点内部的文本信息，这相当于Beautiful Soup的get_text()方法、pyquery的text()方法，示例如下：

from selenium import webdriver

browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)

控制台的输出结果如下：

提问

获取id、位置、标签名和大小

另外，WebElement节点还有一些其他属性，比如id属性可以获取节点id,location属性可以获取该节点在页面中的相对位置，tag_name属性可以获取标签名称，size属性可以获取节点的大小，也就是宽高，这些属性有时候还是很有用的。示例如下：

from selenium import webdriver

browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)