近期要爬取一个网站的数据,嗯?需要登陆才能爬取,那怎么办呢?突然灵光一闪,百度了一下发现python+selenium+PIL可以解决这个问题,为了以后需要使用的时候能给做到有资料可查,在这里就做下简单的记录吧!
一、写入cookie的形式
这种方式有个弊端,就是可能标识的cookie会变,在下次登陆中不能登陆成功。
from selenium import webdriver
#引入selenium模块
opt = webdriver.ChromeOptions()
opt.set_headless()
#设置不在前台打开chrome浏览器
driver = webdriver.Chrome('G:/py_2019\Reptile/Reptile001/chrome/chromedriver.exe',options=opt)
#使用chrome引擎,并指定chromedriver所在位置
driver.maximize_window()
#chrome浏览器窗口最大化
cookies1 = {'httpOnly': True, 'path': '/', 'secure': False, 'name': 'JSESSIONID', 'domain': 'www.xxxxx.org', 'value': 'xxxxxxxxxxxxxxxxxxxx'}
cookies2 = {'httpOnly': False, 'name': 'loginname', 'path': '/', 'secure': False, 'expiry': 1