python爬虫-selenium 的基本使用和常用API

python爬虫-selenium 的基本使用和常用API
python爬虫-pyppeteer常用API

注意:
很多网站对selenium的webdriver做了反爬,所以推荐使用pyppeteer(更强大些)。
但是pyppeteer不如selenium稳定,bug少,语法清晰。

安装

pip3 install selenium
注意需要保持chrome和chromedriver 的版本一致

使用

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')  # 这个配置很重要
chrome_options.add_argument('blink-settings=imagesEnabled=false')
chrome_options.add_argument('user-agent={}'.format(getRandomUserAgent()))
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
chrome_options.add_argument("--test-type")

# 使用网页手机模式
mobileEmulation = {'deviceName': 'iPhone 6/7/8'}
chrome_options.add_experimental_option('mobileEmulation', mobileEmulation)

# 指定chromedriver路径
driver = webdriver.Chrome(chrome_options=chrome_options, executable_path='/usr/local/bin/chromedriver')

# 发起请求
driver.get(url=redictUrl)
解释
from selenium import webdriver
driver = webdriver.Chrome()

运行上面的脚本,它将启动浏览器并退出。因为没有调用quit()方法,所以浏览器会话仍会存在。但是代码里创建的driver对象已经不在了,理论上不能用脚本控制这个浏览器。它将变成一个僵尸浏览器,只能手动杀死它。

通过webdriver启动一个浏览器会话大概会有这样三个阶段:

  1. 启动的浏览器驱动代理(hromedriver,Firefox的驱动程序,等等);
  2. 创建一个命令执行器。用来向代理发送操作命令;
  3. 使用代理建立一个新的浏览器会话,该代理将与浏览器进行通信。用sessionId来标识会话。

因此只要拿到阶段2中的执行器和阶段3中的sessionID就能恢复上次的会话。这两个有api可以直接获取:

from selenium import webdriver

driver = webdriver.Chrome()
executor_url = driver.command_executor._url
session_id = driver.session_id
print(session_id)
print(executor_url)
driver.get("http://www.spiderpy.cn/")

一切就绪,下面就开始实现复用之前会话的功能,

from selenium import webdriver

driver = webdriver.Chrome()
executor_url = driver.command_executor._url
session_id = driver.session_id
driver.get("http://www.spiderpy.cn/")

print(session_id)
print(executor_url)

driver2 = webdriver.Remote(command_executor=executor_url, desired_capabilities={})
driver2.session_id = session_id
print(driver2.current_url)

重新使用已打开的浏览器

# 保留URL和session_id
executor_url = driver.command_executor._url
session_id = driver.session_id
# 清除driver
del driver

# 移除之前driver
driver2 = ReuseChrome(command_executor=executor_url, session_id=session_id)

# 重新发起请求
driver2.get(redictUrl)
解释

可能是因为版本原因吧,反正在我环境中运行时,效果是实现了,能够重新连接到上一个会话,但是却打开了一个新的空白会话。看了下Remote类的源码,发现是因为每次实例化都会调用start_session这个方法新建一个会话。所以解决方法就是继承并重写这个类。自定义一个ReuseChrome这个类重写start_session方法使它不再新建session,使用传入的session_id

from selenium.webdriver import Remote
from selenium.webdriver.chrome import options
from selenium.common.exceptions import InvalidArgumentException

class ReuseChrome(Remote):

    def __init__(self, command_executor, session_id):
        self.r_session_id = session_id
        Remote.__init__(self, command_executor=command_executor, desired_capabilities={})

    def start_session(self, capabilities, browser_profile=None):
        """
        重写start_session方法
        """
        if not isinstance(capabilities, dict):
            raise InvalidArgumentException("Capabilities must be a dictionary")
        if browser_profile:
            if "moz:firefoxOptions" in capabilities:
                capabilities["moz:firefoxOptions"]["profile"] = browser_profile.encoded
            else:
                capabilities.update({'firefox_profile': browser_profile.encoded})

        self.capabilities = options.Options().to_capabilities()
        self.session_id = self.r_session_id
        self.w3c = False

拖动元素移动

"""
    :param driver:driver
    :param source:要拖拽的html元素
    :param targetOffsetX: 拖拽目标x轴距离
    :return: None
"""
def simulateDragX(driver,source, targetOffsetX):
    action_chains = webdriver.ActionChains(driver)
    action_chains.click_and_hold(source)
    action_chains.move_by_offset(targetOffsetX-targetOffsetX/3, 0)
    action_chains.release()
    action_chains.perform()
    driver.quit()

selenium 基础-定位

  • Selenium提供了8种定位方式

    • id
    • name
    • class name
    • tag name
    • link text
    • partial link text
    • xpath
    • css selector
  • 定位元素的使用

    定位一个元素定位多个元素含义
    find_element_by_idfind_elements_by_id通过元素id定位
    find_element_by_namefind_elements_by_name通过元素name定位
    find_element_by_class_namefind_elements_by_class_name通过classname进行定位
    find_element_by_tag_namefind_elements_by_tag_name通过标签定位
    find_element_by_link_textfind_elements_by_link_tex通过完整超链接定位
    find_element_by_partial_link_textfind_elements_by_partial_link_text通过部分链接定位
    find_elements_by_css_selectorfind_elements_by_css_selector通过css选择器进行定位
    find_element_by_xpathfind_elements_by_xpath通过xpath表达式定位
  • 定位下拉标签元素

    import Select
    Select(driver.find_element_by_xpath("//select[@id='9560af43bfc949c4826d329c352e4eb6_class']")).select_by_index(4)   #定位公共互联网环境
    
  • 在iframe框架之间切换

    #切换到指定的iframe框架
    driver.switch_to.frame("mainFrame")  #切换iframe框架
    driver.switch_to.default_content()   #切换到主框架
    

selenium Webdriver模块的使用

方法说明
set_window_size()设置浏览器的大小
back()控制浏览器后退
forward()控制浏览器前进
refresh()刷新当前页面
clear()清除文本
send_keys (value)模拟按键输入
click()单击元素
submit()用于提交表单
get_attribute(name)获取元素属性值
is_displayed()设置该元素是否用户可见
size返回元素的尺寸
text获取元素的文本

selenium 鼠标的使用

方法说明
ActionChains(driver)构造ActionChains对象
context_click()执行鼠标悬停操作
move_to_element(above)右击
double_click()双击
drag_and_drop()拖动
move_to_element(above)执行鼠标悬停操作
context_click()用于模拟鼠标右键操作, 在调用时需要指定元素定位
perform()执行所有 ActionChains 中存储的行为,可以理解成是对整个操作的提交动作

selenium 键盘的使用

模拟键盘按键说明
send_keys(Keys.BACK_SPACE)删除键(BackSpace
send_keys(Keys.SPACE)空格键(Space)
send_keys(Keys.TAB)制表键(Tab)
send_keys(Keys.ESCAPE)回退键(Esc)
send_keys(Keys.ENTER)回车键(Enter)
组合键的使用
模拟键盘按键说明
send_keys(Keys.CONTROL,‘a’)全选(Ctrl+A)类推x,c,v
send_keys(Keys.F1…Fn)键盘 F1…Fn

selenium 断言信息

属性说明
title用于获得当前页面的标题
current_url用户获得当前页面的URL
text获取搜索条目的文本信息
  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值