1. **理解、整理数据**
首先要做的是观察表内都有哪些数据,分别是什么含义;然后将不好理解的列名修改一下,不需要的列隐藏起来,让表看上去更加整洁明了。
![](https://img-blog.csdnimg.cn/20181203205709443.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzI3ODc3OTEz,size_16,color_FFFFFF,t_70)
这个表共有18250条数据,14列,第一行是表头,标明下面数据的内容。
我们看上图2个红框的位置:
第一列的列名为空,经过观察我发现第一列下面的数字表示一年的第几周,所以给它添加列名为Week;
4046、 4225、 4770 三个数字不知道什么意思,网上搜索后我了解到这些是贴在牛油果身上的代码,叫“价格查找代码”,英文为“Pricelook-
upcodes”,简称PLU码,是为了方便超市跟踪查询产品的种类、大小以及价格等信息。这个号码的分配是没有规律的,一般一个品种申请号码。我们把它们当做三种不同的牛油果就可以了,为方便理解加上前缀PLU。
这个表的数据非常干净整齐,没有重复值和缺失值,也没有异常值,数据类型也很整齐,我们几乎不用做什么数据整理和清洗的工作。处理后的表变成下面这样
![](https://img-blog.csdnimg.cn/20181203205810232.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzI3ODc3OTEz,size_16,color_FFFFFF,t_70)
新表包含14列,分别为第几周,日期,单个牛油果的平均价格,牛油果销售总量,PLU-4046的销售个数,PLU-4225的销售个数,PLU-4770的销售个数,袋装牛油果的销售总量,小袋牛油果销售个数,大袋牛油果销售个数,超大袋牛油果销售个数,牛油果类型,年份,地区。
其中牛油果销售总量Total Volume 包含了3种牛油果 PLU-4046,PLU-4225, PLU-4770 单个出售量 和 按袋出售的牛油果个数
Total Bags。
Total Bags为以袋为单位出售的牛油果的总个数,包含小袋Small Bags,大袋Large Bags和超大袋XLarge Bags三种不同规格。
类型Type标明牛油果是普通的还是有机的。
地区Region表示美国不同地区的牛油果销售量,包含部分城市、西部、东北部等地区和全美总体数据。
2. 用数据透视表分析数据,及数据可视化处理
分析数据时,我们一般会将各组数据间的关系用合适的图表表现出来。图表易于展示且方便理解,能将我们的分析结果更好的表达出去。下面我们练习将用数据透视表分析数据关系,并选择合适的图表类型&#