参考
DrissionPage官网 >>
requests文档>>
基本概念:
网页自动化 的形式通常有两种,它们各有优劣:
- 直接向服务器发送数据包,获取需要的数据
- 控制浏览器跟网页进行交互
区别:前者轻量级,速度快,便于多线程、分布式部署,如 requests 库。但当数据包构成复杂,甚至加入加密技术时,开发过程烧脑程度直线上升。
鉴于此,DrissionPage
以页面为单位将两者整合,对 Chromium
协议 和 requests
进行了重新封装,实现两种模式的互通,并加入常用的页面和元素控制功能,可大幅降低开发难度和代码量
使用逻辑
无论是控制浏览器,还是收发数据包,其操作逻辑是一致的。
即先创建页面对象,然后从页面对象中获取元素对象,通过对元素对象的读取或操作,实现数据的获取或页面的控制。
因此,最主要的对象就是两种:页面对象,及其生成的元素对象。
安装
- 操作系统:Windows、Linux 或 Mac。
- python 版本:3.6 及以上
- 支持浏览器:Chromium 内核(如 Chrome 和 Edge)
pip install DrissionPage
# 可以指定自己想要的版本
pip install DrissionPage==4.0.5.6
模块的基本使用
一. 页面类对象
页面类是最主要的工具,用于控制浏览器或收发数据包。
DrissionPage 包含三种主要页面类。根据需要在其中选择使用。
- 📌 ChromiumPage
如果只要控制浏览器,导入ChromiumPage。
from DrissionPage import ChromiumPage
- 📌 SessionPage
如果只要收发数据包,导入SessionPage,继承自 ChromiumPage,并添加了会话保持(session persistence)的功能。会话保持意味着在页面加载过程中,如果有必要的话,会保持浏览器会话状态,比如cookies和localStorage
from DrissionPage import SessionPage
- 📌 WebPage
WebPage是功能最全面的页面类,既可控制浏览器,也可收发数据包。
from DrissionPage import WebPage
二. 基础配置
📌 ChromiumOptions
用于设置浏览器启动参数,这些参数只有在启动浏览器时有用,接管已存在的浏览器时是不生效的。
from DrissionPage import ChromiumOptions
📌 SessionOptions
用于设置Session对象启动参数。
用于配置SessionPage或WebPages 模式的连接参数。
from DrissionPage import SessionOptions
📌 Settings
用于设置全局运行配置,如找不到元素时是否抛出异常等。
from DrissionPage.common import Settings
示例
from DrissionPage import ChromiumPage
# 浏览器配置
co = ChromiumOptions()
# 阻止“自动保存密码”的提示气泡
co.set_pref('credentials_enable_service', False)
# 阻止“要恢复页面吗?Chrome未正确关闭”的提示气泡
co.set_argument('--hide-crash-restore-bubble')
page = ChromiumPage(co)
page.get('http://DrissionPage.cn')
# 根据 H5 标签元素获取对象
# 1. 类名
div1 = page.ele('#one') # 获取 id 为 one 的元素
p1 = page.ele('@name=row1') # 获取 name 属性为 row1 的元素
div2 = page.ele('第二个div') # 获取包含“第二个div”文本的元素
div_list = page.eles('tag:div') # 获取所有div元素
# 模仿登录
page.ele('#login').input("您的账号")
page.ele('#password').input('您的密码')
# 点击登录按钮
page.ele('@value=登 录').click()
持续更新中。。。