1.selenium简介
Selenium是一个用程序操作浏览器的工具,利用它可以实现浏览器自动化、自动化测试、辅助爬虫等。
我们使用浏览器时的所有操作都是基于鼠标和键盘进行交互的,selenium就是用程序的形式来代替我们的键鼠操作,实现自动化的操作。
利用scrapy编写爬虫时,我们可以使用selenium来驱动浏览器加载页面,获取JavaScrapt渲染后的页面HTML代码,而无须考虑网页的加载形式、接口是否加密等一系列复杂的问题。
2.selenium总览
selenium
浏览器驱动
通过指定操作的浏览器驱动,我们可以通过selenium用代码来操作浏览器。
image
驱动 | 代码实现 |
---|---|
Chrome浏览器 | driver = webdriver.Chrome( ) |
IE浏览器 | driver = webdriver.Ie( ) |
Edge浏览器 | driver = webdriver.Edge( ) |
Opera浏览器 | driver = webdriver.Opera( ) |
PhantomJS浏览器 | driver = webdriver.PhantomJS( ) |
元素定位
利用元素定位可以找到加载页面中的任何对象,类似于我们查看加载的页面,并找到我们的目标信息,以便执行下一步的操作。
元素定位
元素定位 | 代码实现 |
---|---|
id定位 | find_element_by_id( )、find_element(By.ID,'id') |
name定位 | find_element_by_name( )、find_element(By.NAME,'name') |
class定位 | find_element_by_class_name( )、find_element(By.CLASS_NAME,'class_name') |