活动地址:CSDN21天学习挑战赛
Selenium是一个用于WEB应用程序的测试工具,可以利用它在爬虫的过程中打开浏览器加载该网页,自动操作浏览器浏览各个网页,顺便将数据抓下来。也就是使用浏览器渲染的方法将爬取动态网页变成爬取静态网页。(这个降维的思想是很值得学习。)
常用的浏览器有Firefox,Chrome,Google,Safari等等,但是注意的是,使用Selenium模块时,除了使用pip 来安装Selenium模块以外,也要安装相应的浏览器和下载此浏览器的驱动程序,并将浏览器的驱动程序放到浏览器的安装目录上。特别使用Chrome时,需要注意下载浏览器对应版本的驱动才能使用。
由于使用Selenium要在整个网页加载出来后才开始爬取内容,速度较慢。所以我们需要控制浏览器加载的内容,从而加速爬虫的速度。常见的方法有:1)控制CSS的加载;2)控制图片文件的显示;3)控制Javascript的运行。
一般使用selenium模块的步骤为
1)导入webdrive,并创建浏览器选项实例如chrome_options,并添加合适的参数,如“--headless”使用无界面模式。
2)通过模拟浏览器的get方法获得响应体的对象
3)通过响应体属性的方法实现元素的定位与操作。