第7章 动态渲染页面的爬取---1、Selenium的使用

除了Ajax这种JavaScript动态渲染的页面外,还要一些,比如分页部分由JavaScript生成,并非原始HTML代码,还有的比如淘宝页面,即使是Ajax获取数据,但其接口含有加密参数,很难爬取。但是我们找到了:Selenium、Splash、PyV8、Ghost等,实现了可见即可爬取。

Selenium,可以驱动浏览器进行点击、下拉等操作,还做到可见即可爬取。

首先,安装Selenium和ChromeDriver

pip安装
pip3 install selenium

wheel安装,可百度搜索即可获取。

selenium安装成功后,还需要浏览器(如Chrome)来配合工作,安装ChromeDriver。
打开浏览器,帮助栏内查看关于Google Chrome,查看版本号,然后网上搜索进入Chrome Driver官网,根据自己版本号下载对应的Driver。
将下载好的exe文件,放到Python的Scripts目录下。

以上操作,可通过下列语句进行验证是否正确:
from selenium import webdriver
browser = webdriver.Chrome()



 
  • 声明浏览器对象

声明浏览器对象,有Chrome、Firefox、Edge等,还支持无界面浏览器PhantomJS.初始化如下:

from selenium import webdriver
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser= webdriver.Safari()
  • 访问页面
from selenium import webdriver

browser=webdriver.Chrome()
browser.get('http://www.baidu.com')
print(browser.current_url) # 当前访问页面的链接
print(browser.get_cookies()) # 当前的Cookies
print(browser.page_source) # 当前网页的源代码
browser.close() #浏览器自己关闭

上述过程,就是通过Selenium来驱动浏览器加载网页,直接获取到了Javascript渲染的结果,不存在使用什么加密系统了的。

  • 查找结点
## 单个结点,结点的属性通过源代码观察获取。
input_first=browser.find_element_by_id('q')#根据ID
input_secsone=browser.find_element_by_css_selector('q')#根据CSS选择器
input_third=browser.find_element_by_xpath('//*[@id="q"]')#根据Xpath获取
print(input
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值