1. 研究目的
黑色星期五是每年十一月的第四个星期五,人们通常由此开始圣诞节大采购,各大商场会推出大量优惠活动,这也是商家在年底进行的最后一次大规模促销。
本次数据分析从销售情况、客户和产品三大维度着手,首先总结本次“黑五”销售情况及各项销售关键指标。其次,分析和研究不同特征群体客户的购买行为,如性别、年龄、职业、婚姻、居住地、居住时长对购买行为的影响。最后,总结最畅销的Top10商品,为商家了解用户购买行为及下一次“黑五”促销提供参考。
2. 数据说明与处理
数据来源于Kaggle:https://www.kaggle.com/sdolezel/black-friday
SELECT count(*) FROM data.black friday;
SELECT count(distinct User_ID) FROM data.`black friday`;
SELECT count(distinct Product_ID) FROM data.`black friday`;
SELECT count(distinct Age) FROM data.`black friday`;
SELECT distinct Occupation FROM data.`black friday`
order by Occupation;
SELECT distinct(Product_Category_1) FROM data.`black friday`
order by Product_Category_1
本次数据分析使用的数据集记录了零售商店在黑色星期五的交易样本数据,包含555959条数据,5891个不同的user_id,3631个不同的product_id,7个年龄段,21种职业,3个城市,20种商品等,共12个字段,如下图所示:
序号 | 字段名 | 字段描述 | 备注 |
---|---|---|---|
1 | User_ID | 用户ID | - |
2 | Product_ID | 产品ID | - |
3 | Gender | 性别 | F:女性,M:男性 |
4 | Age | 年龄 | 7个年龄段 |
5 | Occupation | 职业 | 21种职业,用0-20表示 |
6 | City_Category | 城市类别 | 3个不同城市,用“A”“B”“C”表示 |
7 | Stay_In_Current_City_Years | 所在城市居住时长 | 0,1, 2, 3, 4+ |
8 | Marital_Status | 婚姻状况 | 0:已婚,1:未婚 |
9 | Product_Category_1 | 产品类别1-服饰 | 20种产品,用1-20表示 |
10 | Product_Category_2 | 产品类别2-电子产品 | - |
11 | Product_Category_3 | 产品类别3-家居用品 | - |
12 | Purchase | 购买金额 | - |
其中,产品类别2缺失数据占比31%,产品类别3缺失数据占比69%,数据量大,不能删除。由于不清楚真实情况,产品类别不便填充,所以对这两个字段不进行