一个案例教会你:全面的数据分析应该怎么做?

↑ 关注 + 置顶 ~ 别错过小z的干货内容

 

大家好,我是小z

最近收到一些交流群的同学反馈,想要学习更多流程相对完整的分析案例。喏,今天介绍的这篇,就是咯~

本文所分析的数据是天猫电商平台关于婴幼儿的产品在2012年7月2日至2015年2月5日的销售详细数据,数据包含两个文件,分别是购买商品的信息以及婴儿信息,主要涵盖的数据字段以及含义如下:

向上滑动阅览

user_id:用户id,用户登录时的账户名称。

auction_id:购买行为编号,用户购买行为的唯一识别编号。

cat_id:商品种类ID,购买商品的种类。

cat1:商品属于哪个类别,商品类别。

property:商品属性,商品的基本属性。

buy_mount:购买数量。

day:购买时间。

birthday:出生日期,婴儿的出生日期。

gender:性别(0 男性;1 女性)

下面我们就可以开始进行数据分析了!

一、分析目的

希望可以通过对数据中的信息进行挖掘,找出需要进行改善的地方,针对性的采取措施,从而提高最后的产品销量。

二、分析思路

  1. 销量随时间变化的规律是怎样的?

  2. 婴儿年龄对产品销量的影响?

  3. 婴儿性别对产品销量的影响?

三、分析内容

这里要分析销量的各种关系,所以先对销量数据进行数据清洗:

从购买数据可以发现,平均购买量为2.5,这里最大购买数量居然达到了10000,所以购买数据中存在异常数据,这里的处理方法是将超过平均值3倍标准差的异常数据进行剔除,平均值为2.5,标准差为63,剔除购买数量大于191.5的数据。

1、销量随时间变化的规律

通过统计数据发现,2015年的销量出现了断崖式下跌。

首先,我们要分析的问题是2015年销量下降的原因是什么?

这里将购买数量大于2的用户筛选出来,这里统计出共52位用户,占总用户数的52/29971=0.0017,占比较少,所以不再分析,着重分析新用户购买量。

结论1:老用户占比较小,所以对销量的影响较小,老用户购买量下降导致2015年销量下降的假设不成立。

这里通过对数据处理可以发现,2015年的数据只有1,2月的数据,这可能就是数据的不完整导致了2015年的购买数量出现了大幅的下降。

我们进一步的对每一年的1,2月份的购买数量进行对比,进一步发掘2015年的1,2月的购买数量是否真的出现了下降。

结论2:通过对比分析可知,2015年1、2月的购买数量相比较2013以及2014年并没有大幅的下降,所以2015年销量下降的原因是数据不完整所造成。

当将销量的数据的时间维度拉到季度后可以发现,三四季度的销量发生了上涨。

因此我们的第二个问题是第四季度销量全年较高的原因是什么?

这里我们要用到假设验证方法:

如果假设是因为老用户再次购买数量的提升,通过统计可知,再次购买的老用户的购买数量位90个,占比较少,所以此假设不成立。

接着我们再做出假设,可能是因为双十一及其他活动造成单月销量增加,然后我们要去搜集证据验证这个理论:

从图中可以看出,2012-2014年间,11月份的销售数据是当年最好的,所以11月份的销售数据对第四季度的影响最大,这里再对11月份的详细数据进一步的分析。

从图中可以发现11月中11号的销售数据出现了较高值,所以可能是双11促销活动提升了产品销量。

结论:从以上数据可以得出,四季度销售数据的提高主要是双11活动的拉动,假设成立。

那有没有可能还是别的原因造成第四季度上升的呢,我们再做出假设三:可能是因为爆款产品的出现拉动了四季度产品的销售数据。

通过对不同产品的销量数据进行统计可以发现,500118831销量占比最高,所以下面从这这个产品的销量数据入手进行分析。

从图中可以发现500118831在11月份的销量出现了遥遥领先的数据,购买量急剧的提高。

结论:爆款产品500118831拉动了四季度的销售数据。

2、婴儿性别对产品销量的影响关系

假设1:异常数据

从上面两幅图可以清晰的发现,男童用户的几笔大额交易的购买数量位160以及40个左右,而女童用户的购买数量最大只有13个左右,因此这几笔较大的交易量使得男童的购买量大于女童,这里需要对数据进行进一步的分析,研究数据来源是否准确,到底是因为用户本身造成的偏差还是数据来源的问题。

结论1:异常数据对结果造成的偏差,假设成立。

假设2:男童数量大于女童

结论2:从性别分布图中可以发现,男女比例基本相同,所以假设2不成立。

假设3:年龄对购买量有影响,且男童的年龄分布与女童不同

对比分析:

(1)相同性别内年龄分布对购买数量的影响

男童年龄分布对购买量的影响

女童年龄分布对购买量的影响

从上述两幅图中可以发现,无论是男童还是女童,0-1岁的年龄购买量是最高。

(2)男童与女童的年龄分布

从图中可以发现,男童以及女童的年龄分布是类似的,也就是0-1岁分布的最为聚集,综合上述的分析可以得出

结论3:0-1岁孩童的购买量最多,男童和女童的年龄分布又较为类似,因此男童和女童年龄分布差异对销量影响的假设不成立。

3、婴儿年龄与产品销量的关系

在婴儿性别对产品销量影响的分析中发现,0-1岁的购买量最大,之后随着年龄的增加,购买量逐渐下降。

这里提出假设:可能是商品主要面对低龄儿童,高龄儿童的商品缺乏,导致了随着年龄的增长,商品销量逐渐下降。

从图中可以发现,不同商品即使销量不同,但是趋势类似,即随着年龄的增加,商品的销量出现了较为明显的下降。

结论1:主要的商品面对的是低龄儿童,所以随着年龄的增加,产品购买量出现了明显下降。

结论与建议

结论:

  1. 2015年的销量出现了异常是因为源数据的不完整所导致。

  2. 四季度是婴儿产品销量的高峰期,其主要原因是双十一等促销活动的开展对产品销量的促进,同时爆款产品的出现也对销量的提升有很大的帮助。

  3. 婴儿性别与商品销量的关系主要是几笔较大的购买造成,与婴儿本身性别关系无关。

  4. 电商的商品主要面对低龄儿童,因此随着婴儿年龄的增长,商品的销量出现了下降。

建议:

  1. 建议在商品销量较低的月份采用促销的方式来促进淡季的销售数据。

  2. 调整产品范围,缩减适用于5岁后孩子的产品,集中供应0-1岁的婴幼儿产品。尤其是要丰富1岁前孩子适用的婴幼儿产品,特别是男童,给顾客创造更多消费的机会。

  3. 针对不同的客户采取不同的营销策略,例如对一些购买量较大,购买频率较低的顾客要多加交流和联系,提高购买次数。

本文转载自:知乎

作者:SANGHUAYU


延伸阅读


    同同同期群分析到底是个啥?    Pandas熟练?进来测测这50道题吧!    实战解读:数据分析,如何更进一步?
数据不吹牛读者群已经建立,后台回复“入群”,即可加入有趣讨论,交流数据干货

“有点香”

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值