前言
母婴用品是淘宝的热门购物类目,随着国家鼓励二胎、三胎政策的推进,会进一步促进了母婴类目商品的销量。与此年轻一代父母的育儿观念也发生了较大的变化,因此中国母婴电商市场发展形态也越来越多样化。随之引起各大母婴品牌更加激烈的争夺,越来越多的母婴品牌管窥到行业潜在的商机,纷纷加入母婴电商,行业竞争越来越激烈。本项目会基于"淘宝母婴购物"数据集进行可视化分析。
一、数据获取
本数据集分析案例来自天池“淘宝母婴购物行为”数据集:淘宝母婴购物数据集_数据集-阿里云天池 ,并根据实际分析需要删除和重命名部分字段。包含两张数据集表:
1.母婴信息表:tianchi_mum_baby.csv
包括如下字段:
字段 | 字段说明 | 提取说明 |
---|---|---|
user_id | 用户标识 | 抽样和字段脱敏 |
birthday | 出身日期 | YYYYMMDD,精确到天 |
gender | 性别 | 0:男孩,1:女孩,2:性别不明 |
部分数据预览:
2.购物行为表: tianchi_mum_baby_trade_history.csv
包括如下字段:
字段 | 字段说明 | 提取说明 |
---|---|---|
user_id | 用户标识 | 抽样和字段脱敏 |
auction_id | 交易ID | 字段脱敏 |
category_1 | 商品一级类目 | 字段脱敏 |
category_2 | 商品二级类目 | 字段脱敏 |
buy_mount | 购买数量 | |
day | 交易时间 | YYYYMMDD,精确到天 |
二、数据预处理:
1.修改数据类型
可以观察到日期均为int类型,为了后续方便,修改为date类型
ALTER TABLE tianchi_mum_babyuser
MODIFY birthday DATE;