python:爬虫selenium入门

最新推荐文章于 2024-06-13 22:43:40 发布

gaoshayo

最新推荐文章于 2024-06-13 22:43:40 发布

阅读量124

点赞数

分类专栏： python基础知识爬虫文章标签： python

本文链接：https://blog.csdn.net/gaoshayo/article/details/120096340

版权

python基础知识同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

注意事项：
如果打开网页自动关闭的话，是运行方式不对。操作如下

在程序框内右键，选择在终端运行python文件。或者界面右上角的三角形选择python运行

知识点

在这一关，我教你安装了selenium与Chrome驱动，然后介绍了浏览器的两种设置方法：本地的设置方法与教学系统中的方法。本地的设置方法是这样的：

# 本地Chrome浏览器的可视模式设置：
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

这种设置方法可以让你看到浏览器的操作过程。我想在这里补充的是，在本地的操作环境中，你还可以把自己电脑中的Chrome浏览器设置为静默模式，也就是说，让浏览器只是在后台运行，并不在电脑中打开它的可视界面。

因为在做爬虫时，通常不需要打开浏览器，爬虫的目的是爬到数据，而不是观看浏览器的操作过程，在这种情况下，就可以使用浏览器的静默模式，

它的设置方法是这样的：

# 本地Chrome浏览器的静默默模式设置：
from selenium import  webdriver #从selenium库中调用webdriver模块
from selenium.webdriver.chrome.options import Options # 从options模块中调用Options类

chrome_options = Options() # 实例化Option对象
chrome_options.add_argument('--headless') # 把Chrome浏览器设置为静默模式
driver = webdriver.Chrome(options = chrome_options) # 设置引擎为Chrome，在后台默默运行

与上面浏览器的可视设置相比，3、5、6行代码是新增的，首先调用了一个新的类——Options，然后通过它的方法和属性，给浏览器输入了一个参数——headless。第7行代码中，把刚才所做的浏览器设置传给了Chrome浏览器。

浏览器的可视模式与静默模式的设置，就是以上四行代码的区别。你懂的，这之后所有代码都是一样的。

嘱咐好了所有要讲给你的知识，那就继续每一关结尾例行的总结吧~

我们刚才学习了使用selenium获取数据的方法：.get(‘URL’)。

解析与提取数据的方法：
在这里插入图片描述
以及在这个过程中，对象的转换过程：

除了上面的方法，selenium还可以搭配BeautifulSoup解析提取数据，前提是先获取字符串格式的网页源代码。


HTML源代码字符串 = driver.page_source

以及自动操作浏览器的一些方法。
在这里插入图片描述

还有，在用完浏览器之后，要记得关闭它，以免资源浪费，在代码的结尾处加一行driver.close()就好。

到这里，你应该能感受到，Selenium是一个强大的网络数据采集工具，它的优势是简单直观，而它当然也有缺点。

由于是真实地模拟人操作浏览器，需要等待网页缓冲的时间，在爬取大量数据的时候，速度会比较慢。

通常情况，在爬虫项目中，selenium都是用在其它方法无法解决，或是很难解决的问题时，才会用到。

当然，除了爬虫，selenium的使用场景还有很多。比如：它可以控制网页中图片文件的显示、控制CSS和JavaScript的加载与执行等等。

我们的课程只是带你入门，讲了一些简单常用的操作，还想进一步学习的话，可以通过selenium的官方文档链，目前只有英文版：

https://seleniumhq.github.io/selenium/docs/api/py/api.html

还可以参考这个中文文档：

https://selenium-python-zh.readthedocs.io/en/latest/

gaoshayo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录