日常工作中常常需要重复填写某些表单,如果人工完成,费时费力,而且网络延迟令人十分崩溃。如果能够用程序实现自动填表,效率可以提高一倍以上,并且能够移植到多台计算机,进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具,它能完全模拟浏览器的操作,无需处理复杂的request、post,对爬虫初学者十分友好。
一、环境配置
python3.6+selenium库+xlrd库+xlwt库
其中xlrd和xlwt库用于读写excel表中的数据。
还要下载一个浏览器的driver文件用于打开浏览器,注意要选择与计算机系统相符合的版本(max/windows64位/windows32位)
ChromeDriver:http://npm.taobao.org/mirrors/chromedriver/
IEDriver:http://selenium-release.storage.googleapis.com/index.html
将下载下来的driver.exe放到浏览器根目录和python的根目录
二、打开网页
以IE浏览器为例,以下两行代码就可以实现打开一个IE浏览器并且访问我们需要填表的网站
driver= webdriver.Ie()
driver.get('http://xxxx.com/')
如果网站需要登陆(需要填表的一般是公司内部网站),再写一个login函数,将driver作为参数调用
driver = login(driver)
注意一定要将driver传回,这样driver才能继续接受程序的指令
三、元素定位
webdriver的工作原理是找到网页中某一个元素,可以对其进行填入数据或点击等操作。
我主要用到的元素定位方式有
driver.find_element_by_id('someid')#通过元素的id定位
driver.find_element_by_css_selector("input[value='确定'")#查找一个input元素,它的value属性值为'确定'
driver.find_element_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#查找一个style属性值为'COLOR:red'的span元素的第一个span子元素
(1)通过id定位
如果我们想在网页表单的某一个位置填某项值或者点击某个按钮,我们首先要用开发者工具查看这个元素的源代码,然后首先观察它有没有id,如果有id,直接用id定位该元素。然后,用
driver.find_element_by_id('someid').click()#点击元素
driver.find_element_by_id('someid').send_keys('somekeys')#填入'somekeys'
driver.find_element_by_id('someid').clear()#清空输入框中已有的值
实现我们想要做的操作。
(2)通过ccs selector定位
如果我们想要操作的元素没有ID,那么我们就要找到它跟网页其他元素不同的特征,ccs selector是一种十分灵活的定位方式,其中用value定位是一个不错的选择。以
driver.find_element_by_css_selector(