[Python3网络爬虫开发实战] --使用Selenium爬取淘宝商品

本文详细介绍了如何使用Selenium Python3爬取淘宝商品信息,包括商品图片、名称、价格、购买人数、店铺名称和店铺所在地,并通过PyQuery解析数据,最后保存到MongoDB。文章涵盖准备工作、接口分析、页面分析、获取和解析商品列表、页面遍历、数据保存以及如何使用Chrome的Headless模式和对接Firefox、PhantomJS。
摘要由CSDN通过智能技术生成

利用Selenium抓取淘宝商品并用pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息,并将其保存到MongoDB。

1. 准备工作

确保已经正确安装好Chrome浏览器并配置好了ChromeDriver;另外,还需要正确安装Python的Selenium库;最后,还对接了PhantomJS和Firefox,请确保安装好PhantomJS和Firefox并配置好了GeckoDriver。

2. 接口分析

首先,来看下淘宝的接口,看看它比一般Ajax多了怎样的内容。

打开淘宝页面,搜索商品,比如iPad,此时打开开发者工具,截获Ajax请求,可以发现获取商品列表的接口,如图1所示。
在这里插入图片描述
它的链接包含了几个GET参数,如果要想构造Ajax链接,直接请求再好不过了,它的返回内容是JSON格式,如图2所示。
在这里插入图片描述
但是这个Ajax接口包含几个参数,其中_ksTS、rn参数不能直接发现其规律,如果要去探寻它的生成规律,也不是做不到,但这样相对会比较烦琐,所以如果直接用Selenium来模拟浏览器的话,就不需要再关注这些接口参数了,只要在浏览器里面可以看到的,都可以爬取。这也是选用Selenium爬取淘宝的原因。

3. 页面分析

本节的目标是爬取商品信息。图3是一个商品条目,其中包含商品的基本信息,包括商品图片、名称、价格、购买人数、店铺名称和店铺所在地,要做的就是将这些信息都抓取下来。在这里插入图片描述
抓取入口就是淘宝的搜索页面,这个链接可以通过直接构造参数访问。例如,如果搜索iPad,就可以直接访问https://s.taobao.com/search?q=iPad,呈现的就是第一页的搜索结果,如图4所示。

在这里插入图片描述
在页面下方,有一个分页导航,其中既包括前5页的链接,也包括下一页的链接,同时还有一个输入任意页码跳转的链接,如图5所示。
https://qiniu.cuiqingcai.com/wp-content/uploads/2018/02/7-23-1.jpg
在这里插入图片描述
这里商品的搜索结果一般最大都为100页,要获取每一页的内容,只需要将页码从1到100顺序遍历即可,页码数是确定的。所以,直接在页面跳转文本框中输入要跳转的页码,然后点击“确定”按钮即可跳转到页码对应的页面。

这里不直接点击“下一页”的原因是:一旦爬取过程中出现异常退出,比如到50页退出了,此时点击“下一页”时,就无法快速切换到对应的后续页面了。此外,在爬取过程中,也需要记录当前的页码数,而且一旦点击“下一页”之后页面加载失败,还需要做异常检测,检测当前页面是加载到了第几页。整个流程相对比较复杂,所以这里直接用跳转的方式来爬取页面。

当成功加载出某一页商品列表时,利用Selenium即可获取页面源代码,然后再用相应的解析库解析即可。这里选用pyquery进行解析。下面用代码来实现整个抓取过程。

4. 获取商品列表

首先,需要构造一个抓取的URL:https://s.taobao.com/search?q=iPad。这个URL非常简洁,参数q就是要搜索的关键字。只要改变这个参数,即可获取不同商品的列表。这里将商品的关键字定义成一个变量,然后构造出这样的一个URL。

然后,就需要用Selenium进行抓取了。实现如下抓取列表页的方法:

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from urllib.parse import quote

browser = webdriver.Chrome()
wait = WebDriverWait(browser, 10)
KEYWORD = 'iPad'

d
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值