【Python爬虫教程】进阶篇-04 Selenium 爬取淘宝案例

仲君Johnny

已于 2024-03-29 10:49:35 修改

阅读量2.7k

点赞数 55

分类专栏： python爬虫逆向教程文章标签： python selenium 爬虫网络爬虫 ajax 数据分析

于 2024-02-19 09:56:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lizhongjun1005/article/details/136163115

版权

python爬虫逆向教程专栏收录该内容

38 篇文章 2 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用 Selenium 模拟浏览器操作，抓取淘宝商品信息，包括图片、名称、价格、购买人数、店铺信息等，并将数据保存到 MongoDB。文章详细阐述了 Selenium 的准备工作、接口分析、页面分析、商品列表获取、解析、保存到数据库以及如何在 Chrome 的 Headless 模式下运行，还提到了对接 Firefox 和 PhantomJS 的方法。

摘要由CSDN通过智能技术生成

爬虫专栏：http://t.csdnimg.cn/WfCSx

前言

在前一章中，我们已经成功尝试分析 Ajax 来抓取相关数据，但是并不是所有页面都可以通过分析 Ajax 来完成抓取。比如，淘宝，它的整个页面数据确实也是通过 Ajax 获取的，但是这些 Ajax 接口参数比较复杂，可能会包含加密密钥等，所以如果想自己构造 Ajax 参数，还是比较困难的。对于这种页面，最方便快捷的抓取方法就是通过 Selenium。本节中，我们就用 Selenium 来模拟浏览器操作，抓取淘宝的商品信息，并将结果保存到 MongoDB。

1. 本节目标

本节中，我们要利用 Selenium 抓取淘宝商品并用 pyquery 解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息，并将其保存到 MongoDB。

2. 准备工作

本节中，我们首先以 Chrome 为例来讲解 Selenium 的用法。在开始之前，请确保已经正确安装好 Chrome 浏览器并配置好了 ChromeDriver；另外，还需要正确安装 Python 的 Selenium 库；最后，还对接了 PhantomJS 和 Firefox

了解本专栏

超级会员免费看

关注

55
点赞
踩
26

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

仲君Johnny 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。