写爬虫的时候免不了操作Cookies,使用Selenium可以很方便的读取浏览器已有Cookies,管理Cookies也很方便。
1.selenium读取浏览器已有Cookies
浏览器已有Cookies有一个好处是我们的真实行为,里面保存的数据都是我们经常使用的账号数据,这在抓取网站时有较大好处,因为对这些老账号,真实Cookies,被爬网站会对你的抓取行为宽松一些。
比如你在浏览器登陆和访问过微博的话,使用selenium读取操作老cookies,访问微博的话,你就不需要再登陆啦。
如何操作老Cookie呢?使用add_argument()方法,看代码演示。拿Chrome浏览器举例,代码在Python 3.6里测试通过。
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument("user-data-dir=C:\\Users\\HN\\AppData\\Local\\Google\\Chrome\\User Data")
options.add_experimental_option("excludeSwitches",["ignore-certificate-errors"])
driver = webdriver.Chrome(executable_path="C:/chromedriver.exe",options=options)
driver.maximize_window()
driver.get(