之所以把selenium爬虫称之为可视化爬虫
主要是相较于前面所提到的几种网页解析的爬虫方式
selenium爬虫主要是模拟人的点击操作
selenium驱动浏览器并进行操作的过程是可以观察到的
就类似于你在看着别人在帮你操纵你的电脑,类似于别人远程使用你的电脑
当然了,selenium也有无界面模式
快速入门
selenium基本介绍:
selenium 是一套完整的web应用程序测试系统,
包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)
和测试的并行处理(Selenium Grid)。
Selenium的核心Selenium Core基于JsUnit,
完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,
爬虫中主要用来解决JavaScript渲染问题。
用python写爬虫的时候,主要用的是selenium的Webdriver,
#安装selenium库pip install selenium#安装对应浏览器驱动# 我们可以通过下面的方式先看看Selenium.Webdriver支持哪些浏览器from selenium import webdriverprint(help(webdriver))123456
适用浏览器:PACKAGE CONTENTS android (package) blackberry (package) chrome (package) common (package) edge (package) firefox (package) ie (package) opera (package) phantomjs (package) remote (package) safari (package) support (package) webkitgtk (package)#这里要说一下比较重要的PhantomJS,#PhantomJS是一个而基于WebKit的服务端JavaScript API,#支持Web而不需要浏览器支持,#其快速、原生支持各种Web标准:Dom处理,CSS选择器,JSON等等。#PhantomJS可以用用于页面自动化、网络监测、网页截屏&#x