python爬虫可视化界面_python 爬虫之selenium可视化爬虫介绍

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:诡途

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )

之所以把selenium爬虫称之为可视化爬虫

主要是相较于前面所提到的几种网页解析的爬虫方式

selenium爬虫主要是模拟人的点击操作

selenium驱动浏览器并进行操作的过程是可以观察到的

就类似于你在看着别人在帮你操纵你的电脑,类似于别人远程使用你的电脑

当然了,selenium也有无界面模式

快速入门

selenium基本介绍:

selenium 是一套完整的web应用程序测试系统,

包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)

和测试的并行处理(Selenium Grid)。

Selenium的核心Selenium Core基于JsUnit,

完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。

selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,

爬虫中主要用来解决JavaScript渲染问题。

用python写爬虫的时候,主要用的是selenium的Webdriver,

#安装selenium库

pip install selenium#安装对应浏览器驱动#我们可以通过下面的方式先看看Selenium.Webdriver支持哪些浏览器

from selenium importwebdriverprint(help(webdriver))

适用浏览器:

PACKAGE CONTENTS

android (package) blackberry (package) chrome (package)

common (package) edge (package) firefox (package)

ie (package) opera (package) phantomjs (package)

remote (package) safari (package) support (package) webkitgtk (package)#这里要说一下比较重要的PhantomJS,#PhantomJS是一个而基于WebKit的服务端JavaScript API,#支持Web而不需要浏览器支持,#其快速、原生支持各种Web标准:Dom处理,CSS选择器,JSON等等。#PhantomJS可以用用于页面自动化、网络监测、网页截屏,以及无界面测试

简单测试

from selenium importwebdriver##声明浏览器对象

browser1 =webdriver.Chrome()

browser2=webdriver.Firefox()##访问页面

browser1.get("http://www.baidu.com")print(browser1.page_source)#关闭当前窗口

browser1.close()

元素定位

要想对页面进行操作,首先要做的是选中页面元素,

比较常见的八种元素定位方式,如下表

页面操作

1.表单填充

#找到用户名输入用户名

user = drive.find_element_by_name("LoginForm[username]")

user.send_keys(username)#找到密码输入密码

pwd=drive.find_element_by_id("LoginForm_password")

pwd.send_keys(password)#点击登录按钮实现登录

drive.find_element_by_class_name("login_btn").click()

2.窗口句柄

简单讲,句柄就是浏览器上方每一个窗口栏的唯一标识

#获取当前窗口所有句柄

handles =drive.window_handles#通过句柄 切换到第2个标签页

drive.switch_to.window(handles[2])"""操作完成"""

#关闭当前窗口

driver.close()#通过句柄 切换到第1个标签页

drive.switch_to.window(handles[0])

time.sleep(random.uniform(2,3))

3.url加载和获取

#url加载

drive.get(url)#获取当前页面url并断言

currentPageUrl = driver.current_url

4.cookie处理

get_cookies:获取cookie信息

add_cookie:添加cookie信息

drive.get("http://www.baidu.com")

cookie= {'name':'foo','value':'bar'}

drive.add_cookie(cookie)

drive.get_cookies()

等待方式

现在很多网站采用 Ajax技术

无法确定网页元素什么时候能被完全加载

所以网页元素的选取比较困难

此时就需要设置等待(等待网页加载完成)

selenium有两种等待方式:

显式等待

隐式等待

1.显式等待

显式等待是一种条件触发式等待

直到设置的某一条件达成时才会继续执行

可以设置超时时间,如果超过超时时间元素依然没被加载,就会抛出异常

from selenium importwebdriverfrom selenium.webdriver.support.wait importWebDriverWaitfrom selenium.webdriver.support importexpected_conditions as EC

drive=webdriver.Chrome()

url= 'http://www.baidu.com/'drive.get(url)try:

WebDriverWait(self.driver,10).until(EC.presence_of_element_located(By.ID,"LoginForm[username]")) #显示等待

except:print('%s页面未找到元素'% loc)

以上代码加载 'http://www.baidu.com/'页面

并定位id为"LoginForm[username]"的元素

设置超时时间10秒,webDriverWait默认会500ms检测一下元素是否存在

selenium提供了一些内置的用于显示等待的方法,

位于expected_conditions类中,详细见下表

2.隐式等待

隐式等待是在尝试定位某个元素时,如果没能立刻发现,就等待固定时长

类似于socket超时,默认设置是0秒,即相当于最长等待时长

在浏览器界面直观感受是:

等待直到网页加载完成(地址栏这个地方不是× 变成如下)时继续执行,

网页加载超过设置等待时长才报错

使用方法

from selenium importwebdriver

drive=webdriver.Chrome()

url= 'http://www.baidu.com/'

#设置最大等待时长 10秒

drive.implicitly_wait(10)

drive.get(url)

user= drive.find_element_by_name("LoginForm[username]")

3.线程休眠

time.sleep(time)是比较常用的线程休眠方式

为了避免风险,我个人比较喜欢随机休眠

time.sleep(random.uniform(4,5))

扩展程序加载

#设置好应用扩展

chrome_options.add_extension(extension_path)#添加下载路径#download.default_directory:设置下载路径 profile.default_content_settings.popups:设置为 0 禁止弹出窗口

prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory':tmp_path}

chrome_options.add_experimental_option('prefs', prefs)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值