selenium用于自动测试场景比较多,但是由于它本身就是基于浏览器操作模拟的,所以可以用来获取网页数据,这里的数据就不是海量的泛爬取了,而是有目的,有周期的重复爬取。
安装
安装的主要问题就是webdriver的版本号问题,需要完全一致,我就是没有注意自己Chrome已经升级了一个小版本,结果运行不起来。
webdriver.exe路径加入系统path的问题,有试过通过代码webdriver.Chrome(executable_path=“C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe”)调用,还有将webdriver.exe拷贝一份到python执行环境目录的,还是有各种问题。老实的配windows环境,重启生效最简单。
操作cookie
webdriver启动的浏览器没有把浏览器本身的cookie带出来,这个应该是隔离了本身的浏览器配置,如果能把它们统一就方便了,不过这样就不是测试框架了。。。
那么我们为了避免重复登录还是要想办法处理cookie
import os
import pickle
import time
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
brower = webdriver.Chrome()
wait = WebDriverWait(brower, 10)
url = "https://weibo.com/"
brower.get(url