关于可视化爬虫的笔记
谨以此笔记记录我对可视化爬虫的学习过程以及对可视化爬虫的理解探索。
什么是可视化爬虫
可视化爬虫指的就是selenium爬虫,因为其通过对网页元素的定位来模拟人的点击操作。其操控网页进行运作的过程是可以观察到的。类似于一个机器人在帮你操控你的电脑一样。如果你不想看到他的运行界面也是可以的,selenium爬虫也是有无界面模式的。
怎么用可视化爬虫
安装:pip3 install selenium
如果网速太慢的话可以尝试这样写:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium
selenium爬虫是支持多种浏览器驱动的,我这里主要介绍的是Chrome浏览器的配置使用方法:
1.首先在浏览器地址栏里输入chrome://version/ 查看自己的浏览器版本。然后去谷歌浏览器驱动下载地址下载对应的驱动版本。下载地址为:http://chromedriver.storage.googleapis.com/index.html
2.下载完之后如果将其驱动程序放入你所使用的软件文件夹下就好了,例如我使用的是python3.8版本,直接将其放入python3.8的安装文件目录下即可。
3.简单测试一下安装是否成功。
from selenium import webdriver #导入模块
browser1 = webdriver.Chrome()#声明浏览器对象
browser1.get(“http://www.baidu.com”)#访问页面
print(browser1.page_source)#输出页面信息
browser1.close()#关闭当前窗口