- 背景:组里面要每天从数据平台上下载数据,在本地环境下通过对离线Excel表的整合来完成数据清洗、处理和加工的过程,需要建立一套自动化的过程。在实现过程中,就碰到了cookie失效的问题,需要每天重复在浏览器上人为获取相关的内容,结合着在kimi上做了一些解法。
- 方案:
-
- ① 用影刀RPA创建自动化流程任务
- ② 用八爪鱼实现类似爬虫的自动化任务
- ③ 用python+selenium实现自动化测试的过程
-
- 按照浏览器模拟登录、页面点击、数据运行、上传任务、附件下载的流程进行操作
- 通过 Selenium WebDriver 使用账号和密码登录网站,并点击登录按钮,实现数据抓取
- 网站必须加载完成:确保在获取 cookie 之前,目标网站已经完全加载完成。可以使用显式等待来确保某些元素加载完成。
- Cookie 的生命周期:Cookie 可能有特定的生命周期,某些 cookie 可能只在会话期间有效,而其他 cookie 可能有更长的过期时间。
- 隐私和安全:某些网站可能会设置
HttpOnly
标志,这意味着这些 cookie 不能通过 JavaScript 访问,但仍然可以通过 WebDriver 获取。
- 错误处理:在实际应用中,建议添加错误处理逻辑,以便在登录失败时能够捕获异常并进行适当的处理。

from selenium import webdriver
from selenium.webdri