01
数据预处理
对于较粗糙的数据:
1.添加列名
2.去除重复数据(翻页爬取过程中会有重复)
3.购买人数为空的记录,替换成0人付款
4.将购买人数转换为销量(注意部分单位为万)
5.删除无发货地址的商品,并提取其中的省份
02
描述型统计分析
1
价格分布
可以观察到22元以下占比最多,达到了百分之七十,说明大部分人在月饼的消费上还是比较保守的,更看中的是吃的属性,而非作为馈赠的礼物。
2
销量前十店铺
天猫超市作为综合性商城,包含多个工厂的品牌种类,因此成为月饼购买者的首选。
3
销量前十产品
从单个销量前十的图中可以看到,非旺季时间排名第一的竟是月饼模具。出乎意料,排名第二的是鲜花月饼。
4
全国销量图(非旺季)