Python爬虫（入门+进阶）学习笔记 1-8 使用自动化神器Selenium爬取动态网页（案例三：爬取淘宝商品）

最新推荐文章于 2022-07-11 07:35:00 发布

kissazhu

最新推荐文章于 2022-07-11 07:35:00 发布

阅读量713

点赞数 1

文章标签： Python 爬虫

本文链接：https://blog.csdn.net/kissazhu/article/details/79727118

版权

本文介绍了如何使用Selenium爬取淘宝网上的动态商品信息。通过Selenium的优点和操作，详细讲解了如何定位元素、发送请求以及模拟点击下一页，最终将数据存储到MongoDB。实战部分包括寻找搜索框、提取商品信息并输出，同时提到了PhantomJS无头浏览器和Pyquery包作为补充资料。

摘要由CSDN通过智能技术生成

selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题。

安装：

pip install selenium

下载chromedriver时，chromedriver官网打不开的话，可以去淘宝镜像，地址：http://npm.taobao.org/mirrors，使用最新的chromedriver可以避免一些未知错误（我用旧版的就报错了：WebDriverException: unknown error: call function result missing 'value'）

from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http://www.baidu.com')

在 Python 下引用 Selenium 包开发时，报错：WebDriverException: 'chromedriver' executable needs to be in PATH.
安装 selenium 的 python 包之后，还要安装浏览器 driver，下载安装了ChromeDriver后，将其路径添加到/usr/local/bin下，仍然报错，重新添加PATH，也报错。最后解决办法为：
复制 chromedrive 文件到 Google Chrome 程序目录下，

将

driver = webdriver.Chrome()

改为：

driver = webdriver.Chrome("/Applications/Google Chrome.app/Contents/MacOS/chromedriver")

即可正常运行。

Selenium的优缺点

优点：Selenium可以爬取任何网页的任何内容，因为它是通过浏览器访问的方式进行数据的爬取，

最低0.47元/天解锁文章

kissazhu

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫