[Python3网络爬虫开发实战] --使用Selenium爬取淘宝商品

最新推荐文章于 2024-07-25 19:59:32 发布

漂泊者_LGD

最新推荐文章于 2024-07-25 19:59:32 发布

阅读量1k

点赞数

分类专栏： Python学习记录文章标签： Selenium 淘宝 python 爬虫

本文链接：https://blog.csdn.net/u012922806/article/details/91904574

版权

本文详细介绍了如何使用Selenium Python3爬取淘宝商品信息，包括商品图片、名称、价格、购买人数、店铺名称和店铺所在地，并通过PyQuery解析数据，最后保存到MongoDB。文章涵盖准备工作、接口分析、页面分析、获取和解析商品列表、页面遍历、数据保存以及如何使用Chrome的Headless模式和对接Firefox、PhantomJS。

摘要由CSDN通过智能技术生成

利用Selenium抓取淘宝商品并用pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息，并将其保存到MongoDB。

1. 准备工作

确保已经正确安装好Chrome浏览器并配置好了ChromeDriver；另外，还需要正确安装Python的Selenium库；最后，还对接了PhantomJS和Firefox，请确保安装好PhantomJS和Firefox并配置好了GeckoDriver。

2. 接口分析

首先，来看下淘宝的接口，看看它比一般Ajax多了怎样的内容。

打开淘宝页面，搜索商品，比如iPad，此时打开开发者工具，截获Ajax请求，可以发现获取商品列表的接口，如图1所示。
在这里插入图片描述
它的链接包含了几个GET参数，如果要想构造Ajax链接，直接请求再好不过了，它的返回内容是JSON格式，如图2所示。

但是这个Ajax接口包含几个参数，其中_ksTS、rn参数不能直接发现其规律，如果要去探寻它的生成规律，也不是做不到，但这样相对会比较烦琐，所以如果直接用Selenium来模拟浏览器的话，就不需要再关注这些接口参数了，只要在浏览器里面可以看到的，都可以爬取。这也是选用Selenium爬取淘宝的原因。

3. 页面分析

本节的目标是爬取商品信息。图3是一个商品条目，其中包含商品的基本信息，包括商品图片、名称、价格、购买人数、店铺名称和店铺所在地，要做的就是将这些信息都抓取下来。在这里插入图片描述
抓取入口就是淘宝的搜索页面，这个链接可以通过直接构造参数访问。例如，如果搜索iPad，就可以直接访问https://s.taobao.com/search?q=iPad，呈现的就是第一页的搜索结果，如图4所示。

在这里插入图片描述
在页面下方，有一个分页导航，其中既包括前5页的链接，也包括下一页的链接，同时还有一个输入任意页码跳转的链接，如图5所示。
https://qiniu.cuiqingcai.com/wp-content/uploads/2018/02/7-23-1.jpg

这里商品的搜索结果一般最大都为100页，要获取每一页的内容，只需要将页码从1到100顺序遍历即可，页码数是确定的。所以，直接在页面跳转文本框中输入要跳转的页码，然后点击“确定”按钮即可跳转到页码对应的页面。

这里不直接点击“下一页”的原因是：一旦爬取过程中出现异常退出，比如到50页退出了，此时点击“下一页”时，就无法快速切换到对应的后续页面了。此外，在爬取过程中，也需要记录当前的页码数，而且一旦点击“下一页”之后页面加载失败，还需要做异常检测，检测当前页面是加载到了第几页。整个流程相对比较复杂，所以这里直接用跳转的方式来爬取页面。

当成功加载出某一页商品列表时，利用Selenium即可获取页面源代码，然后再用相应的解析库解析即可。这里选用pyquery进行解析。下面用代码来实现整个抓取过程。

4. 获取商品列表

首先，需要构造一个抓取的URL：https://s.taobao.com/search?q=iPad。这个URL非常简洁，参数q就是要搜索的关键字。只要改变这个参数，即可获取不同商品的列表。这里将商品的关键字定义成一个变量，然后构造出这样的一个URL。

然后，就需要用Selenium进行抓取了。实现如下抓取列表页的方法：

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from urllib.parse import quote

browser = webdriver.Chrome()
wait = WebDriverWait(browser, 10)
KEYWORD = 'iPad'

d