2.9.1.3Python-请求库_selenium

最新推荐文章于 2024-04-23 16:42:17 发布

寒暄

最新推荐文章于 2024-04-23 16:42:17 发布

阅读量229

点赞数

分类专栏： ▼寒暄_Python 文章标签： python selenium 爬虫

本文链接：https://blog.csdn.net/qq_41106844/article/details/105554101

版权

▼寒暄_Python 专栏收录该内容

68 篇文章 0 订阅

订阅专栏

总目录：https://blog.csdn.net/qq_41106844/article/details/105553392

Python-爬虫 - 子目录：https://blog.csdn.net/qq_41106844/article/details/105553319

官方手册：https://selenium-python.readthedocs.io/installation.html

什么是selenium

一种浏览器自动化测试框架

用于web应用程序的自动化测试

特点

开源、免费

多平台（windows、linux、mac）、浏览器（firefox、chrome、ie、opera、safari）、多语言（java、phthon、ruby、php、c#、javascript）支持

对于web页面有良好的支持

API简单、灵活（用开发语言驱动）易于使用

支持分布式测试用例执行

之后我们来看一个普通例子：

这个例子用来在百度搜索Python，并返回页面。

from seleniumimport webdriver

from selenium.webdriver.common.byimport By

from selenium.webdriver.common.keysimport Keys

from selenium.webdriver.supportimport expected_conditionsas EC

from selenium.webdriver.support.waitimport WebDriverWait

browser = webdriver.Chrome()#定义使用谷歌浏览器

try:

    browser.get('https://www.baidu.com')            #访问百度

input = browser.find_element_by_id('kw') #定位百度网页输入框

input.send_keys('Python') #输入Python

input.send_keys(Keys.ENTER) #点击查询

    wait = WebDriverWait(browser, 10) #等待10秒

    wait.until(EC.presence_of_element_located((By.ID, 'content_left')))    #查找

print(browser.current_url) #当前测试地址

    print(browser.get_cookies()) #当前测试cookies

    print(browser.page_source) #当前测试页面源代码

finally:

    browser.close() #关闭测试

运行结果

我们可以看到，这个库的使用，大致分为三部分，第一部分是定义浏览器对象，第二部分发起请求，第三部分关闭浏览器对象。

定义浏览器对象

browser = webdriver.Chrome() #谷歌

browser = webdriver.Firefox() #火狐

browser = webdriver.Edge() #IE

browser = webdriver.PhantomJS() #PhantomJS

browser = webdriver.Safari() #safari

实例：

访问淘宝网

browser = webdriver.Chrome() #声明浏览器对象

browser.get('https://www.taobao.com') #访问淘宝首页

print(browser.page_source) #打印源码

browser.close() #关闭网页

运行结果

查找元素

既然我们能获得源码，自然能够从源码中提取我们想要的信息

查找单个元素

from seleniumimport webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input_first = browser.find_element_by_id('q')

input_second = browser.find_element_by_css_selector('#q')

input_third = browser.find_element_by_xpath('//*[@id="q"]')

# 在这里我们使用了三种方式获取输入框，根据ID，CSS Selector，和XPath获取，它们返回的结果是完全一致的。

print(input_first)

print(input_second)

print(input_third)

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="3be735d5a0dae6722e2e10ef54b25a64", element="0.8761863914068868-1")><selenium.webdriver.remote.webelement.WebElement (session="3be735d5a0dae6722e2e10ef54b25a64", element="0.8761863914068868-1")><selenium.webdriver.remote.webelement.WebElement (session="3be735d5a0dae6722e2e10ef54b25a64", element="0.8761863914068868-1")>

find_element()

Selenium还提供了通用的find_element()方法，它需要传入两个参数，一个是查找的方式By，另一个就是值，实际上它就是find_element_by_id()这种方法的通用函数版本，比如find_element_by_id(id)就等价于find_element(By.ID, id)。

from seleniumimport webdriver

from selenium.webdriver.common.byimport By

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input_first = browser.find_element(By.ID, 'q')

print(input_first)

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="c914e27eac6c1ee496cc4bb027f1f3fd", element="0.006866029616107161-1")>

查找多个元素

from seleniumimport webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

lis = browser.find_elements_by_css_selector('.service-bd li')

print(lis)

print(type(lis))

browser.close(）

运行结果

我们用find_element()再来试试

from seleniumimport webdriver

from selenium.webdriver.common.byimport By

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')

print(lis)

print(type(lis))

browser.close()

运行结果

运行结果与上面一致。

元素交互

输入文字用send_keys()方法，清空文字用clear()方法，另外还有按钮点击，用click()方法。

from seleniumimport webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input = browser.find_element_by_id('q')#定位输入框

input.send_keys('iPhone')#输入iPhone

time.sleep(1)

input.clear()#清空文字

input.send_keys('iPad')#输入iPad

button = browser.find_element_by_class_name('btn-search')#定位标签

button.click()

browser.close()

运行后可以看见下面三个阶段的变换。

动作链

from seleniumimport webdriver

from selenium.webdriverimport ActionChains

browser = webdriver.Chrome()

url ='http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

actions.drag_and_drop(source, target)

actions.perform()

browser.close()

首先我们打开网页中的一个拖拽实例，然后依次选中要被拖拽的元素和拖拽到的目标元素，然后声明了ActionChains对象赋值为actions变量，然后通过调用actions变量的drag_and_drop()方法，然后再调用perform()方法执行动作，就完成了拖拽操作。

运行结果

执行JavaScript

from seleniumimport webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

browser.execute_script('alert("To Bottom")')

browser.close()

在这里我们就利用了execute_script()方法将进度条下拉到最底部，然后弹出alert提示框。

运行结果

获取元素信息

获取属性

from seleniumimport webdriver

from selenium.webdriverimport ActionChains

browser = webdriver.Chrome()

url ='https://www.taobao.com/'

browser.get(url)

logo = browser.find_element_by_id('q')

print(logo)

print(logo.get_attribute('aria-label'))

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="7f8d43c51f5ee0d350c1f83d6fa67309", element="0.7676622454832502-1")>

请输入搜索文字

获取文本值

from seleniumimport webdriver

browser = webdriver.Chrome()

url ='https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('ExploreSpecialCard-title')

print(input.text)

browser.close()

学生「自救」指南

获取ID、位置、标签名、大小

from seleniumimport webdriver

browser = webdriver.Chrome()

url ='https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('ExploreSpecialCard-title')

print(input.id)

print(input.location)

print(input.tag_name)

print(input.size)

browser.close()

0.6825757990841457-1

{'x': 542, 'y': 374}

a

{'height': 28, 'width': 330}

高阶用法

切换Frame

参考：https://www.jianshu.com/p/9f7b0980c669

隐式等待

from seleniumimport webdriver

browser = webdriver.Chrome()

browser.implicitly_wait(10)

browser.get('https://www.zhihu.com/explore')

input = browser.find_element_by_class_name('ExploreSpecialCard-title')

print(input)

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="a0bd13999356b856226d80b20778d23e", element="0.23653782300671677-1")>

显示等待

from seleniumimport webdriver

from selenium.webdriver.common.byimport By

from selenium.webdriver.supportimport expected_conditionsas EC

from selenium.webdriver.support.waitimport WebDriverWait

browser = webdriver.Chrome()

browser.get('https://www.taobao.com/')

wait = WebDriverWait(browser, 10)

input = wait.until(EC.presence_of_element_located((By.ID, 'q')))

button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))

print(input, button)

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="2546d5873333781f46e584f3b94ac30d", element="0.4392430555610003-1")> <selenium.webdriver.remote.webelement.WebElement (session="2546d5873333781f46e584f3b94ac30d", element="0.4392430555610003-2")>

前进后退

from seleniumimport webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.baidu.com/')

browser.get('https://www.taobao.com/')

browser.get('https://www.python.org/')

browser.back()

time.sleep(1)

browser.forward()

browser.close()

异常处理

from seleniumimport webdriver

from selenium.common.exceptionsimport TimeoutException, NoSuchElementException

browser = webdriver.Chrome()

try:

    browser.get('https://www.baidu.com')

except TimeoutException:

    print('Time Out')

try:

    browser.find_element_by_id('hello')

except NoSuchElementException:

print('No Element')

finally:

    browser.close()

No Element

寒暄

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
2.9.1.3Python-请求库_selenium

总目录：https://www.jianshu.com/p/e406a9bc93a9 Python-爬虫 - 子目录：https://www.jianshu.com/p/23cf57674bf1 官方手册：https://selenium-python.readthedocs.io/installatio...
复制链接

扫一扫