Selenium获取网页数据(1)——环境配置及入门

Selenium获取网页数据环境配置及入门

【内容简介】

1.selenium 介绍

2.selenium +Python环境搭建

3.使用selenium获取网页数据

【知识点讲解】

1.selenium 介绍

selenium 是一个 web 的自动化测试工具。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。

selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。

官方文档:

Selenium with Python — Selenium Python Bindings 2 documentation

Selenium Documentation — Selenium 4.6 documentation

2.selenium+Python环境搭建

2.1安装selenium库

和一般第三方库安装方法一样

 pip install selenium

2.2安装特定浏览器的webdriver插件

selenium需要通过浏览器的驱动程序(webdriver)来连接和启动一个浏览器。selenium支持谷歌、火狐、edge、欧朋等浏览器,这里以谷歌浏览器(chrome)为例进行讲解。

(1)查看chrome浏览器版本

点击chrome浏览器右上方的三个小圆点,如图1。

点击“帮助”

点击“关于 Google Chrome”,如图2所示。

 

 

图1 点击chrome浏览器右上方的三个小圆点

  

图2 查看chrome浏览器版本

(2) 下载selenium webdriver插件

登录chrome webdriver网站下载对应版本的 webdriver,如果没有相同的版本号,可以选择近似的版本,如下图所示。

目前可以下载chrome的webdriver的地址:

选择Windows系统,64位也可以选择32位,如下图所示:

 

2.3  配置环境变量

将chromedriver.exe文件放置到python.exe解释器所在的文件夹内。

(1)找到你的python.exe解释器所在的文件夹

菜单:“文件”-“设置(settings)”,打开设置窗口

 

(2)复制“chromedriver.exe”到文件夹

 

2.4测试

新建python文件,输入代码:

from selenium import webdriver

driver = webdriver.Chrome()

显示下面浏览器窗口,模拟浏览器,说明环境配置成功

3.使用Selenium获取网页数据

可以读取所有看得到的所有数据(与requests.get不同)

示例代码

from selenium import webdriver

driver = webdriver.Chrome()                 # 打开chrome浏览器

driver.get('https://www.ptpress.com.cn')

# print(driver.page_source)

with open('tmp/source.txt','w',encoding='utf-8') as f:

f.write(driver.page_source)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值