爬虫实战项目。
爬虫利器:selenium的使用。
任务介绍
最近刚刚注册了某个网站:HDHome,该站有新手考核任务,其中有一项是需要达到魔力值5000。在魔力值获取方式中,我们看到这一项:“说谢谢 = 0.5个魔力值”,而网站存活种子数量达到16000+,也就意味着对每个种子说一下谢谢,轻松达到8000+的魔力值,于是,这个项目应运而生。
实现思路:
获取种子的页面,在每个页面中找到说谢谢的按钮,并点击后,关闭。依次进行下去即可。
相似任务:
实现对某论坛的自动回复,实现自动获取所有帖子的信息等等相关操作,无论是否需要模拟登录、模拟鼠标操作还是直接解析网站元素。
selenium 牛刀小试
首先导入相关的库:
这是整个程序里面用到的所有内容。
其中,webdriver是主浏览器,selenium都是基于整个浏览器的对象;WebDriverWait、EC、By是等待网页元素加载相关的操作;Keys是键值,如Keys.CONTROL,Keys.ENTER等等,ActionChains是用鼠标进行一系列的操作。
webdriver可用的浏览器有:
一开始我选择的是Chrome浏览器,后来改为了Firefox火狐。Chrome浏览器在执行单个元素(如验证码)截图时有坑(下文有详细说),所以后来才用的Firefox。此外,PhantomJS是匿名浏览器,没有显式的窗口。
那么,开始写程序吧。<