引言
众所周知,Python 有很多的爬虫工具,例如,requests、scrapy、selenium等。但是爬虫有个最难搞的东西就是反爬虫了,使用 requests、scrapy框架爬取速度飞快,但是遇到反爬的网站就得斗智斗勇半天甚至好几天。因此,如果仅仅是一些小项目,没有必要使用其他工具,就使用 selenium 就可以了。
selenium 实战
selenium 的使用方法非常简单,需要进行一些配置,这里我使用的是 谷歌浏览器,其他浏览器请自行搜索~
安装 selenium
pip install selenium
安装谷歌浏览器以及谷歌浏览器驱动
浏览器驱动 是和 浏览器对应的。 不同的浏览器 需要选择不同的浏览器驱动。
目前主流的浏览器中,谷歌 Chrome 浏览器对 Selenium自动化的支持更加成熟一些。
推荐大家使用 Chrome浏览器 。
确保Chrome浏览器安装好以后,请大家打开下面的连接,访问Chrome 浏览器的驱动下载页面
注意浏览器驱动 必须要和浏览器版本匹配,大版本一致就可以了。
比如,谷歌浏览器版本为 103,那么就下载 103 开头的就可以了~
省略浏览器驱动路径
下载的浏览器驱动是一个压缩包, 解压之后放到一个容易找到的位置,例如 C 盘根目录
我们可以把浏览器驱动 所在目录
加入环境变量 Path
, 写代码时,就可以无需指定浏览器驱动路径了,像下面这样。
wd = webdriver.Chrome()
然后可以配置一些初始化的参数,代码这里我整理好了,直接拿去用就对了,url为1688网站,已经提前搜索了商品的url地址。
from selenium import webdriver