本文主要用于记录本小白的爬虫学习到的知识点,由于日后可能会忘记(作者是个知识不用就忘的人),所以对Selenium以及其驱动如何进行安装进行记录。同时记录一些基础知识,以便于日后可以对基础知识进行扩展。
Selenium是一个python的第三方库,属于自动化测试库,主要的工作是用来对网页进行一些自动化测试,以查看网页运行的稳定性,承载性等,由于Selenium可以的获取到网页中的大部分元素,所以这个工具实际上也能用来进行爬虫。
首先,我们使用Win+R,在红框中输入CMD,回车
图1:启动命令行
就可以启动原命令行,键入下方代码:
pip install Selenium
然后等待下载就可以了,但是首先需要确保电脑中存在python,如图:本文编写的机子已经完成了安装,所以显示already,如果是第一次下载,红框内的红框中或者会单独起一行来显示Successful。
图2:Selenium库安装示意图
如果遇到了下载失败的问题,即红框内红框出现error或者另起一行显示error,可以从pip是否需要升级,下载源网络不畅,包名书写错误等问题进行入手调查。
完成Selenium库的安装后,我们要做的事情就是打开我们的浏览器,作者平时爬虫的时候使用谷歌浏览器居多,下面就以谷歌浏览器作为演示,谷歌浏览去长这样:
图3:谷歌浏览器图标
启动后 ,从右上角的三个点进入,找到选项卡中的设置,点击进入,找到“关于Chrome”,就可以看到自己的版本号了,
图4:进入Chrome的设置
图5:查看Chrome的版本号
其他浏览器也可以通过类似的操作来获取浏览器版本,获取浏览器版本的作用是,我们需要找到相同版本的驱动,才能稳定有效的进行Selenium爬虫,如果浏览器是120版本,但是使用的驱动是的119版本,这可能导致完全无法打开,或者其他不确定的因素,所以使用相对应的版本是程序稳定运行的一个关键。
如何去找到对于版本的驱动,在CSDN中搜索“谷歌浏览器驱动+版本号”来找到对应的版本号的驱动,目前谷歌仓库内的驱动只到114 这个大版本,我们寻找驱动版本的大前提是找到前三位相同的数字,后面的数字能尽可能相同最好,没有也没有太大关系。
⭐没有什么特殊情况下,尽量少的更新浏览器,更新浏览器可能会导致浏览器和浏览器驱动不匹配。
图6:搜索谷歌浏览器相应版本的驱动
下载了驱动之后,压缩包中有几个文件,最重要的文件是下图的这个文件,这个就是谷歌浏览器的驱动。
图7:谷歌浏览器的驱动
将这个程序放到计算机的全局变量中,操作如下,右键“我的电脑”点击“属性”,进入到属性界面中的右上角找到高级系统设置并点击。
图8:找到高级设置
点击高级设置后会出现下图中最左边的窗口,点击环境变量后,出现第二个窗口,在系统变量中找到Path并点击后,出现了第三个窗口,然后点击新建,将刚刚下载的谷歌浏览器驱动的路径写入到这里,就可以使用Selenium通过这个驱动启动谷歌浏览器了。
图9:将驱动放入到全局变量中
至此Selenium和谷歌驱动已经完全下载完成,这个时候我们就可以启动python来尝试启动谷歌浏览器。以下是启动谷歌测试代码:
import selenium
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.keys import Keys
baidu_url="https://www.baidu.com"
#这里是制定驱动的位置,如果不设定,会出现启动时,驱动先去访问谷歌本部,再启动,启动速度会非常慢
driver=webdriver.Chrome(service=Service("你存放启动的路径"))
driver.get(baidu_url)
代码运行后得到:
图10:使用Selenium启动的谷歌浏览器并访问百度主页