![59fda2922dd2e89d4660f1d2c8c22d44.png](https://i-blog.csdnimg.cn/blog_migrate/1d3aa6905152f6bf8270ad8b4bdcd89c.jpeg)
此次针对数据可视化软件Tableau自带数据源“示例超市”展开数据分析。主要通过DBeaver软件使用mysql数据库取数以及Tableau进行数据可视化的呈现。
一、数据集描述
此次使用的“示例超市”为某超市品牌在中国范围内2015年-2018年中的销售相关数据,文件格式为csv,数据集大小为1948KB,数据总量199200条。
数据源下载链接:https://pan.baidu.com/s/1OLSIG2CzvwOckB2zAK_jZA
提取码:yc4w
二、理解数据
![b091fe328b27d62cfb41a51a88596269.png](https://i-blog.csdnimg.cn/blog_migrate/66be9577e72c41973cd42beb0a62f600.jpeg)
三、数据分析
分析思路
![4dcc9046963679f5a551845b7873809e.png](https://i-blog.csdnimg.cn/blog_migrate/56aa2d9479a8ca715afb127edafe391f.png)
提出问题
- 该公司业绩概况
- 2018年销售额的趋势是怎样的
- 用户结构是怎样的
- 产品结构是怎样的,各类别中有哪些爆款
- 发货时效如何
数据清洗
- 列名重命名
首先将“示例超市.csv”数据源导入本地的名为test2020的数据库中,并将表格名起为orders。导入成功后发现部分字段中存在空格,为方便后续分析操作,将存在空格的字段当中的空格进行删除。
![000042e267d8168b9dbd58756d09d4f1.png](https://i-blog.csdnimg.cn/blog_migrate/46b5d6c826fb4f1f895556ba8181b34b.jpeg)
- 重复值处理
对所有字段进行统一计数,并筛选出计数值大于1的,即为重复值。结果为不存在重复。
![7568a28c652091439ac3b053a8d3c3c1.png](https://i-blog.csdnimg.cn/blog_migrate/f965d449a5fd4a4e511b9e12d06ee2c8.png)
- 缺失值处理
各列数据条数均为9959条,无缺失值。
![9d23d6328345bd7144bcc85bacc12740.png](https://i-blog.csdnimg.cn/blog_migrate/d836003d67ea10a20dee28b46d3abc8e.png)
- 一致化处理
‘城市’字段中,统一使用不含市的名称,从中发现’常熟市’与’吉林市’两个字段与其他字段不一致。
![db8874b34094dd76fba13a0ccdb08d3e.png](https://i-blog.csdnimg.cn/blog_migrate/10ab184e049842c4e269fea472035fc1.png)
将’常熟市’与’吉林市’两个字段分别替换为’常熟’与’吉林’:
![817bb6006725ca98f3323bef823058f0.png](https://i-blog.csdnimg.cn/blog_migrate/0b9f8ee8e793002178b501a8f7f138bb.png)
![0a01a1f22862fff373b84a5e1a928695.png](https://i-blog.csdnimg.cn/blog_migrate/00bef2b3e3cf8d054c62800f2c2859c6.png)
- 异常值处理
以月为单位,分别取历年来每月的累积销售额、累积数量、累积利润。
![acfaa9a1c2fabd101b4d5b4eeb7d6dd8.png](https://i-blog.csdnimg.cn/blog_migrate/b2e63716eed1f6a31afda4e583ed77e0.jpeg)
使用Tableau中的盒须图对取数结果进行分析:
![5b5db508676282da9cf1c3b634629436.png](https://i-blog.csdnimg.cn/blog_migrate/1fc4f679b5c5912f78401838ed477832.png)
如图所示,均不存在异常值。
以上,数据清洗就完成了。
构建模型
- 业务概况
主要结论:
- 销售额、利润等指标逐年上升,2018年为近年最高
- TOP3地区:华东、中南、东北
- TOP3省份:黑龙江、山东、广东
- 各品类产品销售额占比均衡
- 主要客户为消费者
分析:
以年为单位,通过获取年累积销售额、年累积利润、利润率、年累积订单数、平均折扣、客单价数据等数据来了解业务概况
![efdbede92aeef5aee96216d0d33d3c90.png](https://i-blog.csdnimg.cn/blog_migrate/50b7f4f63b536bef2f7f368c6f4c33dc.jpeg)
可见销售额、利润等主要指标呈现逐年上升趋势,2018年达到近年最高。选取2018年度数据通过Tableau进行可视化展示:
![5a55ed3275baafbdebdb04ec8e5f97d2.png](https://i-blog.csdnimg.cn/blog_migrate/9f9fbf651a1c468963a13248dab729b5.png)
![037414129c4227295c1020b656637c62.png](https://i-blog.csdnimg.cn/blog_migrate/33279484d9e71064389db69699e51c5e.png)
销售额较高的地区为华东(28.70%)、中南(25.84%)、东北(17.41%)。
![095a80db4e575424bda92c42d81f733a.png](https://i-blog.csdnimg.cn/blog_migrate/fab8a8a7fd9ba4bf981aff7630a6a8d3.jpeg)
再进一步了解各省份的销售额分布。选取2018年数据,各省份销售额大小以颜色深浅来区分。
可以看到2018年度,颜色最深的三个省份为黑龙江、山东、广东,说明这三个省份的销售额最好。
![4151f19fbc3469e4e4d71946f0ea3e01.png](https://i-blog.csdnimg.cn/blog_migrate/e41948c07717098bbbe07210a082373c.png)
如图可见每年的销售额都比上一年同比增长,且同比增长率逐渐提高,销售额表现得非常优异。
接着再分别观察2018年各地区、各产品品类、各客户分类的销售额占比情况,以此进一步了解该公司的销售结构。