1.数据提取前期网页分析
分析:淘宝网页数据也是通过Ajax技术获取的,但是淘宝的API接口参数比较复杂,可能包含加密密匙等参数;所以,想要通过自己构造API接口获取完整网页信息很难实现(可能只有部分信息),如下图:
图一 实际的网页信息,每一网页有44条商品信息
图二 实际后台的API接口可以找到,但信息不完整(只有11条商品信息),而且部分参数加密
所以,分析至此,不采用Ajax分析;直接使用Selenium模拟浏览器进行数据爬取
2.代码实现+数据清洗+数据存储,如下TaobaoSpider.py
#!/usr/bin/env python
# encoding: utf-8
"&#