写在前面
1、分析背景
本文所分析的数据,来源于阿里云天池;
数据来源:Baby Goods Info Data-数据集-阿里云天池
数据说明:数据集中包含两个CSV文件,分别为:购买商品的信息 和 婴儿信息。为了方便讲述,先将表名重命名,如下:
表1:(sample)sam_tianchi_mum_baby.csv;重命名为:baby.csv
表2:(sample)sam_tianchi_mum_baby_trade_history.csv;重命名为:baby_trade_history.csv
以上两个表中,主要涵盖的数据字段以及含义,如下所述:
- user_id:用户id,用户登录时的账户名称;
- auction_id:购买行为编号,用户购买行为的唯一识别编号;
- cat_id:商品种类ID,购买商品的种类;
- cat1:商品属于哪个类别,商品类别;
- property:商品属性,商品的基本属性;
- buy_mount:购买数量;
- day:购买时间;
- birthday:出生日期,婴儿的出生日期;
- gender:性别(0 男性;1 女性)。
2、分析目的
分析近年来各类商品的销售情况,为运营工作提供参考依据,旨在提高用户黏性,提高销量。
3、分析思路
a、销量随时间变化的规律是怎样的?
b、婴儿性别对销量的影响是怎样的?
c、婴儿年龄对销量的影响是怎样的?
为了分别使用3中工具进行分析,故:数据清洗/处理、分析内容等均放在后面各个工具环节进行!
接下来,分别使用Excel、MySQL和Python进行数据分析!主要用来提取数据、清洗数据、可视化等!
第一部分 Excel
1、数据清洗
目标:主要处理 异常值 和 缺失值。
为了方便查看,先将表1 和 表2 中的字段名,全部替换为对应的中文字段名!
数据清洗的详细步骤,请参照之前的文章:
Dima:第二章 手把手教你使用Excel进行数据分析zhuanlan.zhihu.com1.1 清洗要点:
表1:baby.csv中
- 删除出生日期为 “1984-6-16” 的。
- 性别为“2”的,共有26个。按照现有男女比例为438:489,进行等比例替换。其中,14个替换为 “0” ,12个替换为 “1”。
- 使用 if 函数。将 0 替换为“男”,1 替换为 “女”。
清洗完成后,婴儿信息表中,共有 952 条记录。其中,男婴:502条记录,女婴:450条记录。
表2:baby_trade_history.csv
- 将 表1 合并到 表2 中,用 vlookup 函数。
- 再增加一个列名为 “年龄”,利用datedif 函数(提前需要对日期型数据进行分列处理,并设置格式),将 “出生日期” 和 “购买日期” 做差。出现 143 处 “#NUM!”,原因:购买产品的时间,婴儿还未出生。故:将此全部替换为 0。
![18f9a9120462204cb160927cf93f5af8.png](https://img-blog.csdnimg.cn/img_convert/18f9a9120462204cb160927cf93f5af8.png)
- 对 “购买数量”字段进行处理:
![962ad53e1877f584a97bc08945601562.png](https://img-blog.csdnimg.cn/img_convert/962ad53e1877f584a97bc08945601562.png)
![2dc52f5e376430fbb27cb13df6318915.png](https://img-blog.csdnimg.cn/img_convert/2dc52f5e376430fbb27cb13df6318915.png)
结果如下:
![a8b05685ad96d78a0599e4bfd259a501.png](https://img-blog.csdnimg.cn/img_convert/a8b05685ad96d78a0599e4bfd259a501.png)
从购买数据可以发现,平均购买量为2.5,这里最大购买数量高达10000,由此,可以看出:购买数据中存在异常数据。
这里的处理方法:将超过平均值3倍标准差的异常数据进行剔除。平均值为2.5,标准差为63,剔除购买数量大于191.5的数据(计算公式:2.5+63*3=191.5)。
表2 中,共有 31 条订单,其购买数量大于 191.5,全部予以删除。
至此,清洗工作全部完成,表2 中,有效订单为 29940 条。
2、分析内容
2.1 销量随时间变化的规律
透视数据表,绘图。初步可得出以下结论:
假设1:2015年的销量出现了断崖式下跌。
![895528bf1a101dbbd3fc7c88c7379774.png](https://img-blog.csdnimg.cn/img_convert/895528bf1a101dbbd3fc7c88c7379774.png)
剖析:2015年销量下降的结论,是对比其他以前年份而得出的。使用对比视角,就要确保对比是可比的。就应该考虑三个部分:对比的时间、空间、数量要一致。
查看原始数据集,可以发现,数据集收集到了从 2012年7月2号 到 2015年2月5号 的数据信息。由此可见,对比的时间不一致,根本无法得出2015年的销量出现断崖式下跌的。故假设结论1 是不成立的!
我们进一步的对每一年的1,2月份的购买数量进行对比,进一步发掘2015年的1,2月的购买数量是否真的出现了下降。通过对比分析可知,2015年1、2月的购买数量相比较2013以及2014年并没有大幅的下降。
![2aaf523003835cf6ebcbf038beb1b37c.png](https://img-blog.csdnimg.cn/img_convert/2aaf523003835cf6ebcbf038beb1b37c.png)
结论1:2015年销量下跌,是由于数据集不完整造成的!
注意:只有在对比可以的情况下,才需要进一步站在用户、产品等角度去深入探索销量下降的原因。
假设2:四季度的销量猛增,是由促销活动和爆款产品带来的。
将时间粒度,切换到季度来看。可以发现,三四季度的销量发生了上涨。此时,我们需要思考,第四季度销量全年较高的原因是什么?
![9aa16bebaed83f72647da5fbb4c77e25.png](https://img-blog.csdnimg.cn/img_convert/9aa16bebaed83f72647da5fbb4c77e25.png)