利用Selenium抓取淘宝商品并用pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息,并将其保存到MongoDB。
1. 准备工作
确保已经正确安装好Chrome浏览器并配置好了ChromeDriver;另外,还需要正确安装Python的Selenium库;最后,还对接了PhantomJS和Firefox,请确保安装好PhantomJS和Firefox并配置好了GeckoDriver。
2. 接口分析
首先,来看下淘宝的接口,看看它比一般Ajax多了怎样的内容。
打开淘宝页面,搜索商品,比如iPad,此时打开开发者工具,截获Ajax请求,可以发现获取商品列表的接口,如图1所示。
它的链接包含了几个GET参数,如果要想构造Ajax链接,直接请求再好不过了,它的返回内容是JSON格式,如图2所示。
但是这个Ajax接口包含几个参数,其中_ksTS、rn参数不能直接发现其规律,如果要去探寻它的生成规律,也不是做不到,但这样相对会比较烦琐,所以如果直接用Selenium来模拟浏览器的话,就不需要再关注这些接口参数了,只要在浏览器里面可以看到的,都可以爬取。这也是选用Selenium爬取淘宝的原因。
3. 页面分析
本节的目标是爬取商品信息。图3是一个商品条目,其中包含商品的基本信息,包括商品图片、名称、价格、购买人数、店铺名称和店铺所在地,要做的就是将这些信息都抓取下来。
抓取入口就是淘宝的搜索页面,这个链接可以通过直接构造参数访问。例如,如果搜索iPad,就可以直接访问https://s.taobao.com/search?q=iPad,呈现的就是第一页的搜索结果,如图4所示。
在页面下方,有一个分页导航,其中既包括前5页的链接,也包括下一页的链接,同时还有一个输入任意页码跳转的链接,如图5所示。
https://qiniu.cuiqingcai.com/wp-content/uploads/2018/02/7-23-1.jpg
这里商品的搜索结果一般最大都为100页,要获取每一页的内容,只需要将页码从1到100顺序遍历即可,页码数是确定的。所以,直接在页面跳转文本框中输入要跳转的页码,然后点击“确定”按钮即可跳转到页码对应的页面。
这里不直接点击“下一页”的原因是:一旦爬取过程中出现异常退出,比如到50页退出了,此时点击“下一页”时,就无法快速切换到对应的后续页面了。此外,在爬取过程中,也需要记录当前的页码数,而且一旦点击“下一页”之后页面加载失败,还需要做异常检测,检测当前页面是加载到了第几页。整个流程相对比较复杂,所以这里直接用跳转的方式来爬取页面。
当成功加载出某一页商品列表时,利用Selenium即可获取页面源代码,然后再用相应的解析库解析即可。这里选用pyquery进行解析。下面用代码来实现整个抓取过程。
4. 获取商品列表
首先,需要构造一个抓取的URL:https://s.taobao.com/search?q=iPad。这个URL非常简洁,参数q就是要搜索的关键字。只要改变这个参数,即可获取不同商品的列表。这里将商品的关键字定义成一个变量,然后构造出这样的一个URL。
然后,就需要用Selenium进行抓取了。实现如下抓取列表页的方法:
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from urllib.parse import quote
browser = webdriver.Chrome()
wait = WebDriverWait(browser, 10)
KEYWORD = 'iPad'
d