接上回:
Tao:数据可视化4-区间型、关系型和地理型数据zhuanlan.zhihu.com本章文章参考木东居士公众号,作者Destiny:
如何优雅地选择数据图表:常用图表对比mp.weixin.qq.com本篇学习了常用图表之间的对比,包括:
- 柱状图 VS 条形图
- 柱状图 VS 直方图
- 堆叠柱状图 VS 百分比堆叠柱状图
- 折线图 VS 面积图
- 堆叠面积图 VS 百分比堆叠面积图
- 堆叠面积图 VS 堆叠柱状图
- 散点图 VS 气泡图
按照惯例,先上脑图:
柱状图 VS 条形图
一般情况可以互换,当数据量大或者分类文本过长时,条形图效果更佳
柱状图 VS 直方图
柱状图看数据,看趋势。直方图看分布。作用不同,不能互换。
堆叠柱状图 VS 百分比堆叠柱状图
要看总体变化趋势及各构成占比选堆叠柱状图,要看各构成占比随时间变化趋势选百分比堆叠柱状图。
折线图 VS 面积图
只看整体数据趋势可以互换,要看各构成占比随时间变化选择面积图
堆叠面积图 VS 百分比堆叠面积图
类似于堆叠柱状图和百分比堆叠柱状图的关系,不同在于面积图用于时间序列。
堆叠面积图 VS 堆叠柱状图
当需要对比不同分类的构成情况时,使用堆叠柱状图。比较单一类别的各部分构成随时间变化时,用堆叠面积图。
散点图 VS 气泡图
当展示两个维度的分布情况时,使用散点图,不同类别用颜色或形状区分(eg.男女的身高和体重的关系)。
当展示三个维度的分布情况时,使用面积图,不同分类用颜色区分(eg.成本、销量、销售额之间的关系)
练习:
数据源:
共301条数据,无脏数据、空值
可以看到,一共有19个变量,当然我们不可能把这些数据全部用上。根据第一周所学内容,可视化的步骤是 确认主题→提炼数据→确定图表→可视化设计,所以一定要根据业务需求来做可视化。
提出问题:
- 想了解一下全部发货物品的单价的分布情况,每10元作为一个区间?
- 展示销售额TOP5的产品二级大类?
- 按月份展示商品的销售数量趋势?
- 展示不同年份的商品的销售数量,及其不同年份三种运输方式的数量占比?
明确目的之后就要提炼数据
全部发货物品的单价的分布情况(bin=10)
- 确认主题,明确目的。研究商品单价的分布情况
- 提炼数据。目标数据: 单价
- 确定图表:展示分布情况,用直方图
- 可视化
因为单价数据里有几个特别大的值,影响了整体的效果。鉴于我们是看分布情况,个别极端数值可以剔除掉,现在我们去掉800之后的数值
结论:可以看到37%左右的商品单价都在0~10元之间,50%左右的商品单价分布在0~20元之间。典型的长尾分布。
Tao:Tableau基础教程系列01-直方图zhuanlan.zhihu.com展示销售额TOP5的产品二级大类
- 确认主题,明确目的。
- 提炼数据。目标数据: 销售额、产品二级子类
- 确定图表:展示单一类别的数据对比,选择单一柱状图
- 可视化
结论:销售额前五包括:办公机器、电话通信产品、桌子、容器及箱子、椅子。TOP5中,办公机器销售额最高,椅子销售额最低。由此可见,企业及用户才是大头,应该加大B端市场的开拓。
按月份展示商品的销售数量趋势
- 确认主题,明确目的。
- 提炼数据。目标数据: 订单日期、商品数量
- 确定图表:展示单一类型数据随时间变化的趋势,可以选择折线图或面积图
- 可视化
结论:销售数量随月份变化的趋势不是很明显,波动幅度较大。
让我们按年为周期再看一下:
2009→2010年件销量涨幅很大,约为52%。到2011年销量水平又跌回近乎和2009年相同水品,随后的一年销量几乎持平。
不同年份三种运输方式的数量占比
- 确认主题,明确目的。
- 提炼数据。目标数据: 运输方式、订单日期
- 确定图表:展示4个年份内3种运输方式的占比,只看占比不看总体趋势,选择百分比堆叠柱状图
- 可视化
- 四年中火车的占比最高,一直保持在69%的占比之上,2011年火车占比达到最大82.19%,压缩了大卡和空运的占比。
- 2009→2010年空运占比翻了一倍,从7.94%涨到了16.16%,相比较而言火车的占比降低了8%左右。随后2010~2012年空运的占比逐渐降低,2012年空运占比低于2010年。
- 大卡占比除了2011年被火车压缩到6.85%。其余年份占比无太大变化,保持在14%~17%之间
PS:作图后最好跟数据源做下对比,避免做错
本节作图教程:
Tao:超详细Tableau零基础教程系列01-直方图zhuanlan.zhihu.com