在我们日常的爬虫运作中会遇到各种各样的网页,比如最常见的就是静态网页,这是最容易爬取的一种网页,通过上次说到的requests就可以轻易地爬取到信息,但是,我们也会遇到一些动态网页即用ajax来完成的网页,如果还是只是单纯的使用requests就不能完成了,就需要使用selenium来模拟浏览器,等待网页加载完成之后再下载网页。但是selenium需要一个软件来使用,geckodriver,下面是GitHub 上的下载链接:https://github.com/nidexiaogege/application.git
首先进行安装,
使用的第一步:先导入相关的包
from selenium import webdriver
from selenium.webdriver.firefox.options import Options as FOptions
from selenium.webdriver.chrome.options import Options
第二步:创建对象
options = FOptions()
第三步:模拟浏览器,进行配置,其中executable_path的路径就是上面那个程序的安装路径(写自己的路径)
browser = webdriver.Firefox(executable_path='D:\pachong\geckodriver-v0.21.0-win64\geckodriver',
firefox_options=options)
第四步:通过get请求模拟浏览器
browser.get('http://www.baidu.com')
第五步:关闭模拟的浏览器
browser.close()