之前学习了SQL的基础语言,现阶段我使用MYSQL对一家超市的销售数据进行了分析,数据来源于Kaggle平台,虽然是最近更新,但在实际操作时可发现该数据集的数据截止在2017年12月份,时效性一般,数据量有9917条,操作在Navicat上进行。Superstorewww.kaggle.com
一、字段认识
Row ID--行ID
Order ID--订单ID
Order Date--订单日期
Ship Date--发货日期
Ship Mode--发货模式
Customer ID--客户ID
Customer Name--客户名称
Segment--客户类型
Country--国家
City--城市
State--州
Postal Code--邮政编码
Region--地区
Product ID--产品ID
Category--产品类别
Sub-Category--产品子类别
Product Name--产品名称
Sales--销售额
Quantity--数量
Discount--折扣
Profit--利润
共以上21个字段,该数据集主键为Row ID。
二、数据总体概况
通过以上查询语言,查询到如下结果:
可以了解到数据分析共有客户量7517位,来自496个城市,共购买了1817类产品,购买总额为$1733945,利润为$212001。
三、具体分析
筛选出购买力最强的10位客户的信息,sql语句如下:
筛选结果如下:
1、可以观察到该超市最大的客户为“TC-20980”,是一家来自休斯顿的企业客户,累计购买了40件商品总额为$19045,为该超市创造了$8979的利润。
2、前十名客户分别来自于8个不同的城市,Houston以及Chicago两座城市分别有两名客户,其中Houston的客户为超市创造了$30470的销售总额,以及$11074的利润,城市利润率为36%;Chicago的客户为超市创造了$22191的销售额,以及$2601的利润,城市利润率为12%。
3、观察前十名客户,可以发现其中企业客户占比40%,利润率为19%;个人客户占比50%,利润率27%;家庭办公室占比10%,32%。家庭办公室类型的客户虽然占比不高,但为超市创造的利润率是三种客户类型中最高的,可以进行具体分析,看是否可以将此类客户当做潜力客户进行培养。
4、客户编号为“GT-14635”的客户的总利润为负数,属于异常值,可以对源数据进行判断,看该数据是否属实,如果属实,则需要分析该名客户情况,是否该名客户只在商品促销有折扣时进行购买或者是否有欠款的情况。