淘宝母婴用品数据分析

本文通过分析阿里云天池数据集中的婴儿用品销售记录,发现88%的销量集中在少数几类商品上,双11活动对销量影响显著,用户复购率低,忠诚度不高。用户购买行为受大型促销活动如双11驱动,且0岁、1岁婴儿及未出生婴儿的购买需求为主流。用户中女性婴儿销量占比略高于男性。建议聚焦高销量商品,关注双11等大型活动,同时研究用户购买动机以提升用户忠诚度。
摘要由CSDN通过智能技术生成

一.分析背景及目的

本文是一次探索性分析,通过对所有常规指标进行分析,来寻找业务上优化点

二、理解数据

1.数据来源:

数据集-阿里云天池​tianchi.aliyun.com

其中包含2个csv数据,表1购买商品和表2婴儿信息

2.列名含义:

三.数据清洗

1.选择子集

auction_id(购买行为编号) 和 property(商品属性)在后续分析中不会使用,故将这两列隐藏。(好习惯是永远不删除数据,不需要的数据隐藏起来)

2.列名重命名

将列名翻译为中文

3.删除重复值

未发现重复值

4.缺失值处理

经过筛选未发现缺失值,操作参考Excel数据处理(缺失值/重复值/异常值/拆分) - 知乎 (zhihu.com)

5.一致化处理

将日期修改成yyyy/m/d的格式,参考数据分析学习第(3)篇“如何使用Excel分析婴儿用品销量情况?” - 知乎 (zhihu.com)

将性别列中值为0、1、2的分别修改为女、男、不详,参考数据分析学习第(3)篇“如何使用Excel分析婴儿用品销量情况?” - 知乎 (zhihu.com)

6.数据排序

对购买数量降序排序,发现购买数量最大值为10000

对购买日期排序,发现交易记录的时间范围是2012年7月2日-2015年2月5日

7.异常值处理

删除出生日期为1984年的那一列

四、分析思路

1.从行为、商品、用户三个角度展开描述分析

2.对描述分析的结果从以下角度提出假设

3.验证假设得出结论

五、分析过程

商品

1.不同种类商品销量对比(分析方法:帕累托模型)

因为资源总是有限的,不同的渠道和用户会产生不同的效益,所以我们不能将所有的资源投入到全部渠道里。帕累托分析依据的原理是20/80定律,80%的效益常常来自于20%的投入,而其他80%的投入却只产生了20%的效益,这说明,同样的投入在不同的地方会产生不同的效益。28、50014815、50008168三类商品贡献了总销量的88%。所以建议把主要的投入放在上述三类商品上。

2.爆款商品

top13的商品销量都达到1000件以上

50018831商品为爆款,其销量占据top13的34%,为12657件

其他商品销量比较接近,在1000到3700件之间浮动

销量主要集中在14年的双11,而平时销量不高,说明是节假日爆款商品。需要对14年双11进行复盘,总结运营经验,复制爆款商品

行为

1.销量随时间变化情况(分析方法:折线图)

2012年、2015年销量只是其他年份的零头

假设:数据不完整(数据来源)

交易记录的时间范围是2012年7月2日-2015年2月5日

假设成立

2014年销量约为2013年的2倍

假设:网购人数增加(行业规律),产品好评率提高(产品问题)

两年的销量趋势走向基本相同,且在大多数月份2014年的销量为2013年的2倍

假设成立

由图,2014年11月份销量为13年度514%,这是2014年销量约为2013年的2倍的主要原因

假设:是双11导致14年11月销量猛增(行业规律)

因为有些店家会把双11活动延长几天,所以在13号出现峰值属于正常现象

假设成立

1、2月份出现销量低谷

假设:春节快递停运(行业规律)

2013年2月10日过春节,2014年1月30日过春节,2015年2月19日过春节,正好与销量最低时间相吻合。全国大多数地区在节前1周快递停运

假设成立

2.复购情况

定义:统计周期为2012年7月2日-2015年2月5日,复购率=客户重复购买行为次数/客户样本数量

由此可见绝大多数用户没有复购行为

假设:数据集中绝大多数婴儿用品长时间内只适用于购买一次(产品问题)

需要调取产品信息进一步确认

有复购行为用户中,大多数只复购1次,仅有1人复购3次

这说明用户的忠诚度很低,很有可能需要用爆款来驱动用户购买

用户

性别

1.不同性别的销量对比

女婴销量约占六成,男婴占四成

男、女用户人数约为1:1

2.不同性别的购买偏好

5008168、28类商品在男、女婴儿中销量都比较高

50014815类在女婴中销量最高,在男婴中销量一般

38、50022520类销量一般,38类女婴销量高些

12265008类在男女婴儿中销量都比较低,建议根据实际情况,适当淘汰该类别下的末端商品

50014815类在女婴中销量最高,在男婴中销量一般

假设:50014815类商品具有性别差异(产品问题)

在女婴中销量高的主要原因是50018831、50012564这两款商品,它们在男婴中也是销量最高的

假设不成立

假设:是女婴的购买力比男婴强导致的(用户问题)

查询商品50018831的数据时发现,有位用户单次购买160件,并不是女婴的购买力更强

假设不成立

(因为这组数据单次购买量太大,会影响对趋势的判断,暂时删除)

38类女婴销量较高

查询38类商品数据时发现,有位用户单次购买40件

年龄

1.不同年龄段商品的销量对比

0岁、1岁和出生前购买占据购买量的70%

2岁、3岁占据20%

其他年龄段占据10%

下面重点考虑0岁、1岁和出生前购买用户的购买需求

2.不同年龄段购买偏好

50022520类在未出生baby中销量高,在0岁、1岁婴儿中销量低

38类在1岁中销量高,在未出生baby、0岁婴儿中销量低

50022520类在未出生baby中销量高

假设:存在单次购买量较大的数据(异常数据)

并没有用户单次购买量较大的情况

假设不成立

50022520类对用户年龄敏感,给未出生baby备货的用户喜欢购买

38类在1岁中销量高

假设:存在单次购买量较大的数据(异常数据)

一名用户单次购买了40件

假设成立

六、总结建议

1.商品

88%销量集中在28、50014815、50008168这三类商品上,这三类商品对婴儿的性别、年龄不敏感

9%的销量集中在38、50022520两类商品上,在用户给未出生baby准备时非常喜欢购买50022520类的商品

3%是122650008类,建议对该类别下的商品进行末位淘汰

2.用户行为规律

绝大多数用户对大型活动敏感,因为双11的缘故,14年11月份销量约为其它月份的6倍

14年双11活动非常成功,同比13年销量增长514%,应该进行复盘,总结运营经验

11月13日,母婴用品的销量达到峰值,是商家把双11活动集中在这天的缘故

双11的销量占全月的77%

3.用户

主流用户年龄是0岁、1岁和为未出生的baby准备,除去未出生的baby偏好50022520类的商品外,这3个年龄的

用户对商品的偏好基本相同,都集中在28、50014815、50008168这三类商品上

男、女婴儿用户人数基本持平,女婴的购买能力比男婴略高,男、女婴儿对商品的偏好基本相同,同样集中在

28、50014815、50008168这三类商品上

复购率仅为0.17%,这说明用户的忠诚度很低,很有可能绝大多数是贪图便宜被吸引进来,这样的用户质量并不

高,需要进一步调取数据摸清用户的购买需求,可以从下图入手

下面这批用户单次购买量超过20

前2位用户的购买时间没有促销活动,后3位用户虽然赶上了5月份的活动,但活动力度不如双11大,这些人中没有

1个人在优惠力度最大的双11期间下单,这就说明ta们的购买需求是急切的

还有一个共同点是,这些人购买的都是女婴用品

由此做出假设,这些人是否因工作需要所以要批量购买,例如儿童福利院等机构

建议调取以上用户在淘宝平台的其他信息,进一步探索ta们的购买需求

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值