![79dd98dbfbd5e6ae2fddf8053bce09eb.png](https://img-blog.csdnimg.cn/img_convert/79dd98dbfbd5e6ae2fddf8053bce09eb.png)
之前用Excel对美国黑屋数据集进行了数据分析,Excel对于10万条以下的数据非常易于操作,但是当数据集超过10万条以上,Excel就不能满足我们数据处理的速度和要求,因此数据分析需要用sql语句进行分析,SQL基本操作也是数据分析师必须掌握的一项基础技能。以下,我们就仍然以美国黑五数据集为例,运用SQL语句进行数据分析。
一、项目背景
黑五类似于中国的双11,是美国厂家发起的年底之前的最大规模的促销打折活动。美国圣诞节大采购一般是从感恩节之后开始的。感恩节是每年11月的第四个星期四。因此它的第二天,也就是美国人大采购的第一天。在这一天,美国的商场都会推出大量的打折和优惠活动,以在年底进行最后一次大规模的促销。因为美国的商场一般以红笔记录赤字,以黑笔记录盈利,而感恩节后的这个星期五人们疯狂的抢购使得商场利润大增,因此被商家们称作黑色星期五。商家期望通过以这一天开始的圣诞大采购为这一年获得最多的盈利。
二、数据来源
https://www.kaggle.com/mehdidag/black-fridaywww.kaggle.com三、导入数据到Navicat
导入数据具体流程详见:
猴子:Excel数据导入Mysql常见问题汇总zhuanlan.zhihu.com![461787722c3c97e6df344709d4ed1859.png](https://img-blog.csdnimg.cn/img_convert/461787722c3c97e6df344709d4ed1859.png)
我们新建了一个名叫BlackFriday的表,从下载下来的数据源导入到Navicat中,并添加User_ID和Product_ID为主键。具体信息如下图所示。
![9f3e7ec664737442d222d07c5c0f0ba2.png](https://img-blog.csdnimg.cn/img_convert/9f3e7ec664737442d222d07c5c0f0ba2.png)
四、提出问题
1.消费者群体用户性别差异对购买力的影响
2.消费者群体用户各个年龄段购买力的差异
3.消费者群体用户中婚姻状况是否会对购买力产生影响
4.消费者群体用户中各个职业差异对购买力是否产生影响
5.在各个城市居住年限时长是否会影响消费者购买力
五、理解数据
(1)消费者群体信息
User_ID:用户编码
Product_ID:产品编码
Gender:性别 (M为男性,F为女性)
Age:年龄(0-17,18-25,26-35,36-45,46-50,51-55,55+ 7种)
Occupation:职业(用数字代表具体职业,一共有20种职业)
City_Category:城市分类(分为ABC三类城市)
Stay_In_Current_City_Years:在目前城市的居住的年数 (0,1,2,3,4+,5种)
Marital_Status:婚姻状况 (0代表未婚,1代表已婚)
(2)产品信息