本文作者:王碧琪
文字编辑:钱梦璇
技术总编:张 邯
爬虫俱乐部将于2020年1月5日至11日在湖北武汉举行为期一周的Stata编程技术定制培训,此次采取初级班和高级班分批次培训。课程通过案例教学模式,旨在帮助大家在短期内掌握Stata软件编程、金融计量知识和实证分析方法,使大家熟悉Stata核心的爬虫技术,以及Stata与其他软件交互的高端技术。目前正在火热招生中~
Selenium即浏览器自动化测试框架,是一个用于web应用程序测试的工具。使用selenium时,就好像真的有用户在操作一样。之前我们在推文《Python爬虫之selenium爬取国际自然科学基金数据库(一)》中介绍了selenium的安装和配置,今天小编尝试用它来登录豆瓣。
最终的驱动谷歌浏览器爬虫过程如下:
(一)进入链接
首先我们找到豆瓣登陆的链接https://accounts.douban.com/passport/login?source=movie。我们把Chromedriver配置好,并且对浏览器进行初步的设置。
from selenium import webdriverdriver=webdriver.Chrome() driver.set_window_position(0,0) #设置浏览器窗口位置为(0,0)driver.maximize_window() #设置窗口最大化url="https://accounts.douban.com/passport/login?s