selenium+PhantomJS来做爬虫的话可以做到完全模拟浏览器的操作,就避开了很多后台的通信,过程会简单很多,很多web自动化测试也是用selenium来做的呢,但是这样的缺点就是慢,运行过程中体会很深刻。。。
今天做的依然是模拟登陆扇贝单词,获取某个分类下被热门小组中的成员们收藏次数最多的单词书,比如我需要雅思方面的单词书推荐,那么运行一下代码就可以获得最受欢迎的几本书啦。(扇贝单词虽然可以分类搜索单词书,但是貌似还没有按热门程度排序功能)
需要注意的是要把phantomjs.exe放在我们的代码同级目录下。其中涉及到一些selenium的基本操作,都是很简单的,比如通过class或者xpath找到网页中某个元素,向其中输入一些值,点击某个按键,总之就是完全模拟人在操作浏览器。
直接放上代码:
# -*- coding: utf-8 -*-
"""
Created on Mon May 16 16:38:00 2016
@author: DJ
"""
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import time
from selenium import webdriver
driver =webdriver.PhantomJS(executable_path="phantomjs.exe")
driver.get("https://www.shanbay.com/accounts/login/")
elem_user = driver.find_element_by_xpath('//*[@id="id_usernam