sku:Stock Keeping Unit 库存单位
几乎每个电商平台的商品都有多维度的sku, 而这些数据往往是动态生成的。即通过ajax在网页渲染的过程中动态加载sku数据,因此它们往往不能通过静态方式获取,而要通过浏览器渲染方式(如cef、webkit、selenium等)。获取到1688商品sku对应的网页源码之后,再通过正则表达式进行数据提取分析。从而从网页源码中挖掘出sku核心信息。实现数据采集的价值。
sku在数据分析中具人极其重要的价值,它可用于改善购物体验、预测销量、管理业务等。那么如何抓取1688网商品sku数据呢?
一、网页抓取
导入商品链接,如https://detail.1688.com/offer/594833744561.html,我们可以通过firefox分析该网页,发现它包含颜色和尺寸两个方向的规格信息。每一种组合又具有销量、库存、原价、促销价等诸多属性。
通过webkit获取网页源码。 然后通过正则定位1688商品核心sku元素的位置,当然也可以通过xpath路径表达式实现。如下图所示:
通过python的元素定位并输出,最终输出记录如下: