一个商品属于多个分类_电商母婴商品分析案例

本文将较为系统地对一个电商平台母婴商品购买的数据集进行数据分析。

一、数据理解

1、数据来源:天天池上的天猫淘宝母婴用品购买数据集

Baby Goods Info Data​tianchi.aliyun.com

2、 数据集中的具体字段理解,同时对每个字段按照“用户数据、产品数据、行为数据”进行分类

1)表1:购买商品的数据集

aba99aa3d7dc0353ae6ccb7cee80ad81.png
  • user_id:用户id,天猫淘宝用户的唯一标识,可以根据用户ID来判断是否是同一客户;——用户数据
  • auction_id:购买商品的编号(item_id),可以汇总商品销量,从而得到哪些商品是畅销商品——行为数据
  • cat_id:商品种类ID(商品二级分类,表示商品属于哪个类别)——产品数据
  • cat1:商品种类ID(商品一级分类,表示商品属于哪个类别),和商品编号类似,根据商品的层级从属关系,可以用数据透视表来展示逻辑关系。比如商品大类下面,哪个分类更畅销)——产品数据
  • property:商品属性(属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值)——产品数据
  • buy_mount:购买数量,在数据集中,每一行中的购买数量是指某个用户,在某一天,购买某商品的数量。单独对这个值进行分析意义不大,但可以和其它字段结合起来进行汇总,比如与时间、用户、商品品类等结合(在下文中具体展开)——行为数据
  • day:购买时间(是个时间戳格式,可以通过excel将时间戳显示为日期格式)——行为数据

2)表2:婴儿信息表

  • user_id:用户id,与表1一样,应该为用户的天猫淘宝账号,是表中的唯一标识,可以通过这一字段和表1购买商品的数据集关联起来——用户数据
  • birthday:出生日期,每位用户家中婴儿的出生日期,通过与表1的关联,可以知道在每次订单购买时,婴儿的年龄——用户数据
  • gender:性别(0女性;1男性;2未知的性别),婴儿的性别与商品的品类之间可能存在一定关系——用户数据

二、数据清洗

数据清洗的具体过程详见excel数据分析-母婴用品购买数据集实战 一文,在经过删除重复项、对日期数据进行处理、字段值替换、进行描述统计后,我们发现存在异常值:

购买数量的平均值是2.5,标准差63.99,中位数和众数都是1,可见每个用户在每个商品上的单次购买数量都较小;
同时无论是上四分位还是下四分位都是1,无法根据k(Q3-Q1)来计算异常估计值;
考虑将大于1000以上的值认为是极度异常,尤其是最大值10000异常明显。我们先按照购买数量降序排列,对每一个疑似的异常值单独判断是否异常。

ef3e6cc42e0250ef665cb9d77280f5c7.png
针对商品二级分类是“50018831”的商品,对其销量降序排列,发现销量为10000的这笔交易记录发生在2014年11月13日,远超出其它笔记录的交易量。对应的用户ID“2288344467”在整个数据集中仅此一笔购买记录,虽然购买日期发生在双十一期间,但这笔交易记录的购买数量仍然远超出正常促销活动对单个消费者带来的购买量的提升水平,可以认为是异常数据,予以剔除。
同时剔除了以下4行异常数据行:

1eab60ed7bf169139d696b58f9195fd1.png

三、提出问题

根据已有的数据集,我们提出了以下感兴趣的分析方向,

  1. 不同商品品类的销量差异,哪些商品是畅销品?哪些品类最常被购买?不同品类中的TOP10商品有哪些?
  2. 以月为维度,婴儿商品的销量是否与不同的季节或是时间节点有关?
  3. 不同性别、年龄的婴儿家庭,购买的婴儿商品品类是否有所不同?

联系常见的业务指标(可分为产品、行为、用户三大类)以及常用的分析方法,我们将以上问题整理为如下的分析思路:

cbdc7cf8576fe39b5ed11b4fd9aa2c3a.png

四、建立模型,分析问题

(一)产品维度

1、畅销商品TOPN

这里运用对比分析方法,对2012Q3和2015Q1期间的商品按照一级品类进行汇总统计,各品类销量情况如下图。

ef802606e71b2b5c28f225b086a541bb.png

可以发现,商品一级分类为“28”的商品累计销量最好,其次是“50008168”和“50014815”,这三类为畅销品。而剩下的三类在销量上与前三类有较大差距。

各品类内的二级分类畅销品也可以汇总统计得到,其中,一级品类“50014815”下的二级品类里“50018831”和一级品类“38”下的二级品类“211122”远远畅销与各自同级的其它二级品类。

a6b8d2a6853f4c6bbc5872a81b8edcd2.png

af88149715317645d7cb6a6c2b9ebff3.png

2、商品销量变化情况

将每月销量进行可视化。由于数据集中的时间只包括到了2015年的2月,从统计结果来看,2015.2的数据应该也不全,因此暂且忽略该月的销量异常下跌,重点关注2012Q4到2014Q4的销量走势。

a2808f703aa62b56b9ca07a412cb564d.png

可以发现在上面的折线图中,每年销量随着时间有几个明显的变化趋势:在每年的1、2月份销量较低,在5月有一个小高峰,在11月有明显的高峰。现在对以上现象,先提出猜想,后进行进行具体的分析。

1)假设1:每年1、2月份的低销量与春节有关。

根据销量=订单数*每订单的平均销量,分别绘制每月的订单数和每订单的平均销量的趋势图,可以发现2月份的订单数明显下降,但每订单的平均销量却较大。而1月份的订单数和每订单的平均销量都相对较低。

5a0493403016565f130ffd0c1bde0a3a.png

50379cdd2e981add15bae267b987ae30.png

进一步把2012Q4到2014Q4的这一段全数据集的1、2月销量按照时间维度展开,可以发现在2013年2月1日至2月15日期间,以及2014年1月26日至2月3日期间,母婴商品的销量极低,基本每日销量为个位数。结合2013年的春节假期为2.9-2.15(2.10为春节)、2014年的春节假期为1.30-2.6(1.31为春节),可以得出在每年临近春节开始,会有一个为期一周左右的销量低潮期,这可能与春节期间快递停运、线上购物受到影响有关。

fbe11bdbf8180b764c7035bd42b242d1.png

假设1成立。

2)现象2:每年5月份母婴用品的销量会上涨。但5月在认知中并没有较大的购物狂欢节,是什么因素导致了这一现象呢?

同样根据每月的订单数和每订单的平均销量的趋势图,可以发现2014年5月的每订单销量是一个小高峰,而2013、2014年两年的5月订单数相比前后两个月都高出不少,可见5月母婴用品的订单量较大。

5ed56eceee755cc4a95670abfff1e9a8.png

783bd31922dffaca8254cde55c89994b.png

将5月的销量数据按照每日展开,发现2013年的5月3日、5月10日、5月30日单日销量较高,而2014年5月的单日销量有多个小高峰,以5.3、5.12、5.22、5.27尤为突出,这些时间与当年的母亲节、520、儿童节较为接近,推测是由于商家促销活动较多造成的销量上涨。

947d4569ade164c446c0fcc9fd45a494.png

3)假设2:11月的销量上涨与双十一活动有关

2012-2014年每年的11月订单数都上涨较大,每订单的平均销量也较大,推测是由于双十一活动引起的。

463ede0eb5d2c9c3b7c368329c533c32.png

同样对11月的每日销量进行展开,发现2012-2014年11月的每日销量高峰集中在11.10、11.11两天,以及2012年的11.19,2013年的11.29,和2014年的11.26,也就是2013年和2014年的感恩节前后(分别是2012.11.22,2013.11.28,2014.11.27)。由此得出结论,11月的销量上涨是由双十一活动和感恩节大促同时带来的,假设2部分成立。

f288c0ab71fd008c60acf108a2d32125.png

3、商品复购率

对购买商品数据集按照用户ID进行计数并降序排列,共发现25个购买次数>1的用户ID,即复购用户,占数据集中所有不重复用户ID的25/29914≈0.08%,说明母婴商品的复购率不高。

以下是复购用户ID:

8e6fcb402ab45b17bf5f77e26fc03ec8.png

按照生活经验,母婴商品具有易耗品、一定时期内需求大、一定时期后零需求的特点,而复购率不高的现象则与这些特点并不完全符合。根据上文的可视化图表,每订单的平均销量在4以内,因此建议进一步获取更多数据,深入分析复购率低的问题。

(二)用户维度

1、婴儿性别不同的家庭对不同商品品类购买量的影响

从不同商品类别下不同性别婴儿所购买的数量比例分布图来看,我们能发现商品品类50014815的销量中,婴儿性别所贡献的比例差距巨大,可以对这一类别进一步分析,为后续是否需要针对婴儿性别做不同活动策划和商品推荐作为参考。

0476cc70d7980963db771f10bd1f7958.png

2、婴儿年龄不同的家庭对不同商品品类购买量的影响

购买母婴用品的家庭中,婴儿年龄集中在未出生和刚出生0-2岁期间。

a8507b5d2a3d00ddc1314b325bdf72c1.png

如果来看不同年龄段的婴儿家庭购买的不同一级商品分类的销量数据,则可以看到不同年龄单的婴儿家庭购买的商品品类的区别:

679addc0fe0299ac07734d16089a997d.png

商品分类50014815是初生儿中销量最高的商品类别,可在未出生及0-2岁婴儿家庭中进行一定的促销活动。商品分类50008168则是母婴用品中的刚需,所有年龄段婴儿家庭都对其有很大的购买量。随着婴儿年龄增加,对商品分类28的需求逐渐上升,可在婴儿年龄接近2岁时逐步为用户推荐该品类商品。

五、分析结论及建议

根据上述分析,我们可以得出以下结论,并给出相应建议:

1、商品一级分类为“28”的商品累计销量最好,其次是“50008168”和“50014815”,这三类为畅销品,可以给予较大的推广力度;

2、春节期间受快递停运、购物方式转为线下购物等多种因素影响,商品销量较低,商家可以在春节前夕、年末双旦期间进行促销,将需求提前释放,而在春节期间减少资源投入;

3、母婴商品除了双十一活动能带来较大销量提升以外,受商品自身类型的影响,在5月的母亲节、520、儿童节、十一月的感恩节的促销影响较大,可以加大对这些节日的促销和营销力度;

4、母婴商品的复购率低,需要从产品、运营等多个维度进一步分析原因,建议结合评论数据进行分析,也可以从复购较多的商品品类中对比分析。

5、婴儿性别对不同品类的商品的销量有影响。商品品类50014815的销量中,婴儿性别所贡献的比例差距巨大,可以对这一类别进一步分析,为后续是否需要针对婴儿性别做不同活动策划和商品推荐作为参考。

6、婴儿年龄对不同品类的商品销量同样有影响。商品分类50014815是初生儿中销量最高的商品类别,可在未出生及0-2岁婴儿家庭中进行一定的促销活动。商品分类50008168则是母婴用品中的刚需,所有年龄段婴儿家庭都对其有很大的购买量。随着婴儿年龄增加,对商品分类28的需求逐渐上升,可在婴儿年龄接近2岁时逐步为用户推荐该品类商品。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值