1、项目简介
2、数据理解
表1:2020年各省人口数量表:
- 地区:各个省份
- 人口数:2020年各个省份的人口数
表2:电子产品销售表;
- event_time:下单时间,包含其他内容,需要清洗;
- order_id:订单编号
- product_id:产品标号
- category_id :类别编号,存在空值;
- category_code :类别 ,存在空值 ;
- brand :品牌
- price :价格
- user_id :用户编号
- age :年龄
- sex :性别
- local:省份
- buy_cnt:购买数量
3、数据清洗与处理
3.1、日期列处理
1) 拆分event_time列,提取日期、小时
2)从日期列提取年、月、周几形成新列
3.2、缺失值处理
category_code列和brand列有缺失值,对于category_code,为了不影响其他维度分析,选择用‘E’填补。对于brand列,因缺失值较少,选择直接删除缺失值。
3.3、异常值处理
date列有异常值1970,且数据不多,选择筛选过滤
price和amount最小值为0,这类商品属于免费类的商品,不属于异常值。
3.4、新增列
1)新增订单金额列,订单金额(amount)=price*buy_cnt
2) 给年龄分组
4、数据分析
4.1、销售情况分析
从结果指标着手,利用多维度拆解方法,分析目前的销售现状:
1)按月份的销售趋势
八月之前都基本是处于上升状态,七月至八月上升速度达到最大,八月达到峰值,然后就开始下降。
八月前后销售额上升下降可能的原因:
活动
新增用户
2)各地区销售情况
销售额和销量在各地区的分布比列相似,排名前三的广东、上海、北京是其他地区销售额两倍以上,且其他地区间的销售额差距不明显。
3)各年龄段分析
35-40岁年龄段的订单金额低于其他年龄段,且与其他年龄段的差额大于其他各年龄段之间的差额。
4)新老用户销售情况
各地区和个年龄段的新老用户销售额占比波动不大,五月的新用户销售额占比达到最大,超过了50%,考虑可能是新用户数量增加导致。