1. 数据概述与预处理
1.1数据概述
本报告数据由Kaggle提供,共有数据783667条,12个字段,分别包含用户编号、产品编号、性别、年龄、职业、城市分类、城市居住时间、婚姻情况、产品类别1、产品类别2、产品类别3、销售金额。由于数据量庞大,Excel难以快速高效处理数据,因此本报告采用SQL对相关数据进行处理。
数据下载链接为:https://www.kaggle.com/datasets/sdolezel/black-friday
1.2 数据预处理
在分析前,应对数据缺失值与异常值进行处理,数据中的应没有缺失值的字段为User_ID、Product_ID和Purchase三个字段,如果三个字段有缺失值则该数据分析没有意义,应采取缺失值处理措施,此外Purchase金额字段也不该为零。结果如图1所示,发现数据中没有缺失值及为0的值。
SELECT User_ID,Product_ID,Purchase
FROM data_black
WHERE User_ID IS NULL
AND Product_ID IS NULL
AND Purchase IS NULL
AND Purchase = 0
图1 预处理结果
2. 现状分析
2.1 业务背景与逻辑分析
本报告的研究背景为黑色星期五的促销活动,我们需要根据促销活动的销售数据来分析整体的销售情况,以及根据消费者的个人特征进行用户画像分析,可以针对不同的用户进行不同的促销活动,所以本报告主要对用户的特征进行简要分析。
2.2 整体销售情况分析
本报告从总体上对消费者数量、产品数量、销售金额进行简要分析,由图2所示,在促销活动期间总消费金额达到了近51亿,有5891个消费者对3677个产品产生了购买行为。
SELECT
COUNT(DISTINCT User_ID) AS ucount,
COUNT(DISTINCT Product_ID) AS pcount,
S