一、selenium爬取动态网页
1、动态网页认知
- 爬虫其实就是在模仿浏览器的行为
- 应对要多次数据的交互模拟的网站,我们有时会遇到像淘宝这样的大型网站,对数据版权看得特别重的,它们的网站有大量的工程师和技术人员去维护,它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂,难度较高。
- 对于这类网页的爬取,我们的解决方案是: Selenium + Chrome驱动。
2、工具的介绍
url编码与解码在线测试工具:http://tool.chinaz.com/tools/urlencode.aspx
在线正则表达式测试工具:https://tool.oschina.net/regex
3、Selenium的认识
一个Web自动化测试工具,最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵; Selenium 也可以做类似的事情,但是它是在浏览器中做这样的事情。
安装:pip install selenium
然后就可以在Python中from selenium import webdriver来测试是否装好。
4、爬虫方案的选择
对Selenium + Chrome驱动这个方案,从理论上来说,只要是用户能够访问的数据,都可以抓取到,但是,从时间、空间、效率上来说,这个方案有些缺陷,尤其是时间方面,可能需要多次尝试。
因此,如果能够使用的get和post的地方,最好就不用selenium
二、爬虫案例分析
1、获取id或者xpath实现登陆
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time
browser = webdriver.Chrome() # 设置Chrome为selenium的浏览器驱动
# 打开浏览器实现登陆
def openbrowser():
# global browser
url = "http://index.baidu.com/" # 百度指数的网站
browser.get(url)
# 点击网页的登录按钮:在对应的元素那里右击检查(或审查元素),再右击Copy,最后Copy Xpath
browser.find_element_by_xpath('//*[@id="home"]/div[1]/div[2]/div[1]/div[5]/span/span').click()
time.sleep(3)
# 自动化操作是很快的,但是操作再快,网络可能跟不上,可能页面还没加载完全,因此需要设定等待时间
# 浏览器登陆id测试
# 1)在用户名输入框点检查,就能找到对应的id为TANGRAM__PSP_4__userName
# 然后在console控制台输入:document.getElementById("TANGRAM__PSP_4__userName").value = "