除了Ajax这种JavaScript动态渲染的页面外,还要一些,比如分页部分由JavaScript生成,并非原始HTML代码,还有的比如淘宝页面,即使是Ajax获取数据,但其接口含有加密参数,很难爬取。但是我们找到了:Selenium、Splash、PyV8、Ghost等,实现了可见即可爬取。
Selenium,可以驱动浏览器进行点击、下拉等操作,还做到可见即可爬取。
首先,安装Selenium和ChromeDriver
pip安装
pip3 install selenium
wheel安装,可百度搜索即可获取。
selenium安装成功后,还需要浏览器(如Chrome)来配合工作,安装ChromeDriver。
打开浏览器,帮助栏内查看关于Google Chrome,查看版本号,然后网上搜索进入Chrome Driver官网,根据自己版本号下载对应的Driver。
将下载好的exe文件,放到Python的Scripts目录下。
以上操作,可通过下列语句进行验证是否正确:
from selenium import webdriver
browser = webdriver.Chrome()
- 声明浏览器对象
声明浏览器对象,有Chrome、Firefox、Edge等,还支持无界面浏览器PhantomJS.初始化如下:
from selenium import webdriver
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser= webdriver.Safari()
- 访问页面
from selenium import webdriver
browser=webdriver.Chrome()
browser.get('http://www.baidu.com')
print(browser.current_url) # 当前访问页面的链接
print(browser.get_cookies()) # 当前的Cookies
print(browser.page_source) # 当前网页的源代码
browser.close() #浏览器自己关闭
上述过程,就是通过Selenium来驱动浏览器加载网页,直接获取到了Javascript渲染的结果,不存在使用什么加密系统了的。
- 查找结点
## 单个结点,结点的属性通过源代码观察获取。
input_first=browser.find_element_by_id('q')#根据ID
input_secsone=browser.find_element_by_css_selector('q')#根据CSS选择器
input_third=browser.find_element_by_xpath('//*[@id="q"]')#根据Xpath获取
print(input