selenium 爬虫的数据实战

Python_P叔

已于 2024-01-05 15:29:01 修改

阅读量1.5k

点赞数

文章标签： selenium 爬虫 python

于 2023-11-07 10:08:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Saki_Python/article/details/134260931

版权

本文介绍了如何使用selenium作为Python爬虫工具来应对反爬虫策略。讲解了selenium的安装、谷歌浏览器及驱动的配置，并提供了省略驱动路径的方法。还分享了一段1688商品信息爬取的示例，强调了动态加载数据的处理技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

众所周知，Python 有很多的爬虫工具，例如，requests、scrapy、selenium等。但是爬虫有个最难搞的东西就是反爬虫了，使用 requests、scrapy框架爬取速度飞快，但是遇到反爬的网站就得斗智斗勇半天甚至好几天。因此，如果仅仅是一些小项目，没有必要使用其他工具，就使用 selenium 就可以了。

selenium 实战

selenium 的使用方法非常简单，需要进行一些配置，这里我使用的是谷歌浏览器，其他浏览器请自行搜索~

安装 selenium

pip install selenium

安装谷歌浏览器以及谷歌浏览器驱动

浏览器驱动是和浏览器对应的。不同的浏览器需要选择不同的浏览器驱动。

目前主流的浏览器中，谷歌 Chrome 浏览器对 Selenium自动化的支持更加成熟一些。

推荐大家使用 Chrome浏览器。

可以点击这里，下载安装谷歌浏览器

确保Chrome浏览器安装好以后，请大家打开下面的连接，访问Chrome 浏览器的驱动下载页面

Chrome 浏览器驱动下载地址

注意浏览器驱动必须要和浏览器版本匹配，大版本一致就可以了。

比如，谷歌浏览器版本为 103，那么就下载 103 开头的就可以了~

图片.png

省略浏览器驱动路径

下载的浏览器驱动是一个压缩包，解压之后放到一个容易找到的位置，例如 C 盘根目录

我们可以把浏览器驱动 所在目录 加入环境变量 Path ，写代码时，就可以无需指定浏览器驱动路径了，像下面这样。

wd = webdriver.Chrome()

然后可以配置一些初始化的参数，代码这里我整理好了，直接拿去用就对了，url为1688网站，已经提前搜索了商品的url地址。

from selenium import webdriver
from selenium.webdriver.common.by import By
from s

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。