一、项目背景及目的
1.1 项目背景
近年来,随着母婴行业管理秩序的规范及其商品品质的提升,淘宝母婴用品对消费者散发着巨大的吸引力。2013年12月,我国开始实行单独二孩政策;随着二胎政策的逐渐放开,新生儿迎来小高峰,新生代父母的消费潜力大,消费意识与消费能力升级,母婴行业迎来黄金时代。
基于这样的背景,本文对电商用户购买母婴用品行为数据进行分析,解读行为规律,理解用户需求,帮助平台实现营收增长。
1.2 目的及分析问题
本次数据分析旨在分析淘宝用户在2013年至2014年购买母婴用品的情况,运用对比分析法、多维度拆解分析法,分析商品销售情况、绘制用户画像、获取用户需求。从用户维度来分析如何优化运营和销售策略,帮助平台实现精细化运营,提高用户转化和销量。
这次分析的用户指标包括性别比例、年龄分布、购买力、和用户数量增长率等,其目的是根据提供的用户信息(性别、年龄等)预测其购买需求(这里的用户特指0~11岁儿童,下同)。
分析问题包括:
- 用户的性别比例与年龄分布?
- 哪一类用户的购买力较强、市场较大?
- 不同年龄阶段购买量排名前三的商品类别分别是哪些?
二、理解数据
2.1 数据来源及介绍
2.1.1 数据来源
数据来源阿里巴巴天池Baby Goods Info Data-数据集-阿里云天池。本数据集包含淘宝平台用户2012年7月至2015年2月购买婴儿用品的购买记录,包括2个excel文件。表一是购买商品信息,共29972行,7列数据;表二是用户提供的儿童信息,共954行,3列数据。
2.1.2 字段含义
数据集包含的字段含义为:
三、数据清洗
3.1 选择子集
根据要解决的业务问题,选择需要分析的列,隐藏起不需要的列。
(1)表一中需要使用5个字段,隐藏cat 1 和 property 所在列,成功隐藏后,如图保留了5个字段:
(2)表二中没有需要隐藏的字段,使用VLOOKUP函数,通过 user_id 将表二中的儿童信息匹配到表一中:
由于提供的儿童信息数量较少,匹配完成后出现较多“#N/A”。首先进行数值粘贴,筛选出有效值。再复制与有效值相关的所有信息,并粘贴到新工作表中,共957行。
3.2 列名重命名
为便于理解,将英文列名转换成中文列名:
3.3 删除重复项
用户名虽然有重复,但是重复的用户对应的商家并不相同,说明是同一个用户在不同的商家购买的商品,因此不需要删除。
3.4 缺失值处理
选择数据区域任一单元格,使用Ctrl+G-定位空值,未发现缺失值。
3.5 一致化处理
表中购买日期和出生日期列的数据转换为日期格式:选中列-数据-分列-YMD。
3.6 数据排序
没有要求提前排序的数据。
3.7 异常值处理
(1)计算儿童的年龄,使用datedif()函数计算两个日期的差值,儿童年龄=购买时间-出生日期。
(2)通过筛选检查发现年龄出现异常值,分别为-2,-1,28,删除异常年龄所在行,共15行数据;
(3)性别所在列存在代号“2”(代表不知道),不具有参考性,直接删除其所在行——共25行;
表中目前是917行数据(含标题),其中有两个用户ID重复,但是购买时间不同,因此不算重复值或异常值。
四、构建模型和数据可视化
数据清洗已完成,接下来就是构建模型和数据可视化。构建模型可以理解为通过数据透视表为解决业务问题提供更有效的数据支持,而可视化是在模型构建完成的基础上,设计相关图形图表展示分析结果。
4.1 用户的性别比例、不同性别用户的购买力对比和增长率
(1)建立数据透视表,行标签中,0代表“女孩”,“1”代表男孩;列标签为购买年份。
用户性别比例——汇总方式为“计数”,数据显示方式为“总计的百分比”:
不同性别购买力对比——汇总方式为“求和”,数据显示方式为“总计的百分比”:
(2)可视化结果:
淘宝母婴产品用户中,女孩占据52%,比男孩多4%;与此同时,女孩用户的购买力比男孩高出18%。
从2013年到2014年,女用户数量增长率高达49%,比男用户高13%;与此同时,女用户购买量增长率为35%,比男用户高6%。也许女孩能被各种打扮,总的来说,在淘宝母婴产品中,女孩市场要大于男孩市场。
4.2 用户年龄分布、不同年龄阶段的用户数量增长情况和购买力对比
(1)建立数据透视表
用户年龄分布——年龄区间分为0~2、3~5、6~8、9~11,汇总方式为“计数”:
不同年龄阶段的购买量对比——汇总方式为“求和”:
(2)可视化结果
- 两年中,0~2岁年龄段的用户最多,3~5岁其次,9~11岁年龄段的用户最少;随着时间的推移,每个年龄段的用户数量都在增长,其中0~2岁增长最为显著。
- 存在提供6~11岁儿童信息的父母的数量较少这一可能。
就这份数据来看,在这两年期间,0~2岁年龄段的用户购买力最大,3~5次之,9~11年龄段的用户购买力最小。
4.3 不同年龄阶段购买量排名前三的商品类别分别是哪些?
(1)建立数据透视表
总购买量排名前十的商品品类——已按照总购买量进行降序处理:
(2)数据可视化
总体来说,用户购买量最大的商品品类为50018831,而编码为50013636的品类的购买量排名第二。
- 由表格可知,对于0~2年龄段的用户来说,最受欢迎的商品品类为50012456,其总购买量为42;最受3~5年龄段的用户欢迎的商品品类为50013636,其总购买量为19;
- 作为用户购买量最大的商品品类,50018831同时且仅出现在0~2和3~5年龄段购买量排名前三的品类中,说明这一品类是这两个年龄段用户同时需要且较受欢迎的;
- 而作为用户购买量排名第二的50013636,在后三个年龄段里购买量的排名皆是第一,说明这一品类对于3~11岁儿童是最有吸引力的。
五、结论和建议
1.2013年~2014年的淘宝母婴产品用户中,女孩所占比例较大,用户数量增长率较高,所对应的购买力也较强;从总体上来讲,女孩市场要大于男孩市场。
建议:加大对女孩用户群体的运营活动。
2.所有年龄段的用户数量都在随时间而增长,其中0~2岁阶段的用户最多,且数量增长最为显著;相应地,这一阶段用户的购买力最大。
建议:进一步重视和细分0~2岁阶段用户需求。
3.在母婴用品中,总购买量最大的商品类别为50018831,而这一类别只有0~2和3~5这两个年龄段的用户需要;各年龄段购买量最大的商品存在差异。
建议:实行精准营销,根据儿童用户年龄推荐不同类别的商品。
4.总购买量排名第二的50013636这一类别最受3~11岁用户的欢迎,因此,对于0~2岁年龄的用户,在其年龄增长后,该类别会成为其购买需求。
建议:引入用户全寿命管理,可使用推荐算法在适当时间提前向特定用户进行商品活动推荐。