Selenium是一个开源的爬虫框架,支持Python,Java等多种语言
对比其他爬虫框架,其最大的优点在于可视化,即通过实际操控浏览器来实现爬虫
今天刚刚入门,简单将一些要点记录如下:
区分大小写。坑爹的框架是区分大小写的,例如同时有webdriver.ie()和webdriver.Ie()两个函数,但是如果是生成一个Ie浏览器的接口,记得是webdriver.Ie()这个大写的函数
配置浏览器相关的驱动器。默认的框架貌似只支持Firefox浏览器,如果是IE或者Chrome浏览器,则需要下载相应的驱动,例如IE对应的驱动器就是IEDriver.exe,另外记得将驱动器复制到相应的Python根目录下面,例如D:\Python26
特别情况需要设置代理。今天在公司测试的时候发现无法启动IE浏览器,在家里则可以正常启动。后来搜索了一下发现可能是因为公司的网址设置代理,必须处理代理的问题,似乎得通过一个remote的函数链接到公司的代理上面,暂时还没有解决,只是先记录下来,防止其他网友遇到同样的问题而找不到解决的方法
简单的测试代码:
from selenium import webdriver
a = webdriver.Ie()
测试成功后页面显示如图,显摆一下哈哈