一、分析背景
母婴用品是指为主要为孕产期女性与0-3岁婴儿这两类特殊相关联群体提供的专业健康产品。中国是仅次于美国的全球第二大母婴用品消费大国,近年来,随着互联网的不断发展,母婴行业与互联网融合的不断加深,互联网母婴用户大幅上涨,母婴电商市场呈快速增长趋势。然而,在业绩增长的同时,店铺经营问题也逐渐凸显,如用户复购率低,新增用户缓慢等,因此需要对母婴用品销售情况进行深入分析,了解目前店铺存在的业务问题,针对性制定解决方案。
二、分析目的
分析近年来各类商品的销售情况,为运营工作提供参考依据,旨在提高用户黏性,提高销量。
三、理解数据
数据获取来源:阿里天池-Baby Goods Info Data
数据来自淘宝和天猫上购买婴儿用户,本数据集包括2个表格文件:
【表1】购买商品.csv 共7个字段,29971个记录
字段名 | 描述 |
---|---|
user_id | 用户ID(长整型),用户唯一识别码 |
auction_id | 购买行为ID |
cat_id | 商品二级种类ID(长整型),可分析最受欢迎的二级分类 |
cat1 | 商品一级种类ID(长整型),可分析最受欢迎的一级分类 |
porperty | 商品属性(字符串型) |
buy_mount | 购买数量(长整型),可分析热销商品和滞销商品 |
day | 购买时间(日期型),可分析复购率和销售趋势 |
【表2】婴儿信息.csv 共3个字段,953个记录
字段名 | 描述 |
---|---|
User_id | 用户ID(长整型),用户唯一识别码 |
Birthday | 婴儿出生日期,可分析不同年龄的孩子对应的商品 |
gender | 婴儿性别(“0”表示女孩,“1”表示男孩,“2"表示未知 |
四、分析思路
4.1 构建业务问题
- 了解成交量的时间分布及周期性变动规律;
- 判断畅销品和滞销品分别是哪些;
- 分析商品的客户群体特征。
4.2 思维导图
五、数据清洗
5.1 字段重命名
根据对字段含义的理解,将字段转化为中文方便理解。
5.2 选择子集
表1,因为商品属性不参与业务问题的分析,因此隐藏商品属性字段下的数据,保留其他子列进行数据清洗;表2,保留所有字段下的数据。
5.3 删除重复值
因为同一个用户可能购买多次,同一种购买行为可能被多个不同用户在不同时间执行,因此应该选择全表,删除重复值,经处理表1 和表2均无重复值。
5.4 缺失值处理
经EXCEL的筛选功能,在表1保留的子列中未发现有缺失值,在表2中也未发现有缺失值
5.5 一致化处理
对于表格中的日期,用数据-分列方式进行一致化处理;对表格中的性别进行一致化处理,性别"0,1,2",分别转换为"男,女,未知"。
5.6 多表关联查询
用Vlookup函数将两表数据关联;对于年龄问题,利用datedif函数计算年龄。
5.7 异常值处理
年龄异常值:对婴儿年龄进行筛选,年龄中大于等于"28"为异常年龄,删除。
六、数据分析
6.1 市场销售情况
如图,2012-2015年度总共有六大类母婴用品,其子类商品种类共计662种,商品成交总数量为76250件;销量最高的是【28】类商品,其子类商品种类高达267种;销量最差的是【122650008】类产品,仅有17种子类商品种类;【28】类商品销量为【122650008】类的12.7倍。
如图可知,2012-2014年成交量整体呈逐年上升趋势,而2015年出现骤减现象,通过观察数据源发现主要原因是由于2012与2015年度数据不全,无法对结论精准对比分析,因此后续部分数据分析以2013-2014年度为主要依据。
如图所示,季节成交数量呈现出明显上升趋势,第一、二季度总体销量相对稳定,第三、四季度为顾客采购旺季,且2014年第四季度环比其他任何季度的成交数量涨幅最大;2013-2015年度每年第一季度成交量都有下滑的现象。
由于2015年度数据不全,故这里只考虑2012-2014年度第三、四季度销售情况。
从数据上看,2012-2014年度第三、四季度总体成交量呈上升趋势,第四季度成交量对比第三季度而言波动较大,且2014年第四季度的商品成交量出现暴增现象。
6.1.1分析2014年度第四季度商品成交量暴增的原因
分析思路: