Selenium爬取网页详解

最新推荐文章于 2024-05-11 19:30:00 发布

Klose_10

最新推荐文章于 2024-05-11 19:30:00 发布

阅读量3k

点赞数 3

文章标签： python html http

本文链接：https://blog.csdn.net/Klose_10/article/details/108989647

版权

Selenium爬取网页详解

Selenium

Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。

Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。

Selenium 自己不带浏览器，不支持浏览器的功能，它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在代码中运行，所以我们可以用一个叫 PhantomJS 的工具代替真实的浏览器。

PyPI网站下载 Selenium库 https://pypi.python.org/simple/selenium ，也可以用第三方管理器

pip用命令安装：pip install selenium

Selenium 官方参考文档：http://selenium-python.readthedocs.io/index.html

python3使用的浏览器

随着Python3的普及，Selenium3也跟上了行程。而Selenium3最大的变化是去掉了Selenium RC，另外就是Webdriver从各自浏览器中脱离，必须单独下载

安装Firefox geckodriver

安装firefox最新版本，添加Firefox可执行程序到系统环境变量。记得关闭firefox的自动更新

firefox下载地下：https://github.com/mozilla/geckodriver/releases

下载下来的文件解压到Python36\Scripts
anaconda的就在anaconda下面的Scripts

安装ChromeDriver

http://chromedriver.storage.googleapis.com/index.html

注意版本号要对应这里查看版本号

百度搜索对应的版本安装

下载下来的文件解压到Python36\Scripts
anaconda的就在anaconda下面的Scripts

chrome59版本以后可以变成无头的浏览器，加以下参数

options = webdriver.ChromeOptions()
options.add_argument('--headless')
chrome = webdriver.Chrome(chrome_options=options)
chrome.get("http://ww.baidu.com")

使用方式

Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器，但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素，与页面上的元素进行交互 (发送文本、点击等)，以及执行其他动作来运行网络爬虫

简单例子

# 导入 webdriver
from selenium import webdriver

# 要想调用键盘按键操作需要引入keys包
from selenium.webdriver.common.keys import Keys

# 调用环境变量指定的PhantomJS浏览器创建浏览器对象
driver = webdriver.PhantomJS()

# 如果没有在环境变量指定PhantomJS位置
# driver = webdriver.PhantomJS(executable_path="./phantomjs"))

# get方法会一直等到页面被完全加载，然后才会继续程序，通常测试会

最低0.47元/天解锁文章

Klose_10

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
Selenium爬取网页详解

Selenium爬取网页详解SeleniumSelenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。Selenium 自己不带浏览器，不支持浏览器的功能，它需要与第三方浏览器结合在一起才能
复制链接

扫一扫