数据可视化(二):如何选择图表——学习笔记

在数据可视化的过程中,根据数据之间的关系选择合适的图表来表示尤为关键。主要是两类数据关系的可视化:时序数据可视化和比例型数据可视化。

一、时序数据可视化

时序数据指的是任何随着时间变化的数据。而时间具有以下特征:

  • 有序性,随时间变化的事件有先后顺序;
  • 周期性,许多自然或商业现象都具有循环规律,如季节就有周期性的循环。
  • 结构性,时间的尺度可以按照年、季度、月、日、小时、分钟、秒等去切割。

另外,时间可根据是否连续分为离散型时间和连续型时间,相应的,就有离散时间可视化和连续时间可视化:

1、离散时间可视化

这类数据是来自具体的时间点或者时间段,可以用柱状图、散点图、堆叠柱状图来表示,其中,柱状图又可以分为单一柱状图和并列柱状图。

(1)单一柱状图,这类图表通常用于表示单类别数据随离散时间变化的趋势,一般以各时间点作为x轴,从0开始的数值标识刻度作为y轴,将数值的大小映射为柱形的高度。但是,不适合展示数据条过多的离散时间的趋势,一般不超过12条。

(2)并列柱状图,当需要对比某一离散时间上的多个系列,以及展示随离散时间的变化趋势时,需要用到并列柱状图,但是系列数不超过三个,图表数据表示形式类似单一柱状图。

(3)堆叠柱状图,可以分为普通堆叠柱状图和百分比堆叠柱状图:

  • 普通堆叠柱状图:展示的是堆叠部分的实际数量,一般以各时间点作为x轴,从0开始的数值标识刻度作为y轴,数值大小用柱形表示,同一时间点的不同类别数据堆叠在同一个柱形上,并且,整体的构成部分,最好不要超过5项;
  • 百分比堆叠柱状图:展示的是堆叠部分的相对数量,一般以各时间点作为x轴,从0开始的百分比值刻度作为y轴,各类占比大小用柱形表示,同一时间点的不同类别数据堆叠在同一个柱形上,这里每个时间点的柱形总高度一样,都为100%。

(4)散点图,通常用来表示两个变量的相关关系,这里以各时间点作为x轴,另一个变量作为y轴,表示y变量随时间的变化关系。散点图用位置来作为数值的视觉通道,当有多个系列时,可以用不同形状的标记以及不同颜色来表示。

2、连续时间可视化

连续时间可视化与离散时间可视化的区别在于两者所反映的真实世界的数据是否是不断变化的,比如一天的气温变化就是连续数据。连续时间可视化通常用折线图、阶梯图、拟合曲线图来表示。

(1)折线图,通常用于表示数据在一个连续时间上的变化。一般用X轴来表示时间的推移(连续时间),并且间隔相同,Y轴代表不同时刻的数据的大小。折线图根据其适用范围又分为三类:点线图、折线图、曲线图。

  • 点线图,当数据项不超过12条时,数据值用点表示,直线连接各个点,可以直接把数值显示在点上;
  • 折线图,当数据项较多,超过12条时,用点表示数值会显得太拥挤,此时用折线表示;
  • 曲线图,当数据项比较多时,曲线图相邻节点的连线更加平滑,比折线图美观;

(2)阶梯图,常用来表示某两个相邻的时间节点,后一个节点的数据相对于前一个节点数据的升降变化,常用于商品价格变动、股票价格波动、税率变化等场景。

在阶梯图中,有三个关键的值:

  • 前一时间节点数值;
  • 当前时间节点数值;
  • 当前节点较前一节点的差值。

(3)拟合曲线图,常用于数据预测,研究数据随时间的变化所表现出来的整体趋势时,可以根据多个离散点,拟合一个最接近的一个连续函数关系。

二、比例数据可视化

 比例数据通常是按照类别与子类别、整体与个体进行的划分。常用的表示的图表如下:

1、饼图

子类数量不超过7个时,可使用饼图,饼图通过角度来映射各个子类的数值,一个扇区代表一个子类,通常不同扇区用不同颜色来映射。

2、环形图

环形图是通过各个扇区的弧形的长度来衡量数值,相比饼图,环形图的中心部位是空的,可以用来放标签、名称等内容。

3、百分比堆叠柱状图

当数据中类别比较多,并且各类别的子类都相同时,可以用百分比堆叠柱状图。横轴为父类,纵轴为百分比,这类图表有几个特点:

  • 各个父类对应的柱形条的高度是相同的,顶部刻度都为100%。

  • 每根柱形条内部,各子项柱形条的高度,代表在该系列中的占比。

  • 当各父类目的子类数目较少时,可以直接在矩形内部展示占比;当数目较多时,建议隐藏。

  • 当各父类的子类目较多时,为了保证重点突出和视觉效果,需要对子类目进行归类,占比较少的子类归类为其他。

4、百分比堆叠面积图

当比例数据中存在多个父类目,且父类的数据类型为时间,要分析父类的各构成子类占比随时间的变化趋势,此时可以采用堆叠面积图来表示比例关系的变化。

5、矩形数图

矩形树图,是一种基于面积的可视化方法。外部矩形代表父级类别,内部矩形代表子类别。相比于其他表示比例型的数据,矩形树图更适合展示具有树状结构的数据。

 

在选择可视化图表的时候,我们首先要明确的是要从图表中获取什么信息。然后,根据数据的特征、数据之间的关系,选择合适的可视化图表。

如上所述:

  • 时序数据,主要目的是研究数据随时间的变化,这种变化包括总量的变化、构成部分的变化、以及变化的趋势和规律。

  • 比例数据,为了寻求整体中的各个构成部分,及其相互关系。

 

三、可视化实践

1、时序数据的可视化

(1)场景1:某电商公司2018年销售额趋势

问题1:展示2018年全年的销售额整体趋势情况,以及不同品类销售额的发展趋势,应该用什么图表展示?

回答:首先,明确可视化的目的是展示整体销售额以及不同品类销售额随离散时间的变化趋势,品类数目有5种,因此可选择普通堆叠柱状图来可视化。

可视化结果如图:

(2)场景2:某只股票在2019年10月份的价格变动

问题2:展示某只股票的价格变动,应该使用什么图表?

回答:可视化目的是展示价格随时间变化趋势,时间为一个月的连续时间,可选用阶梯图,展示股票价格的升降变化。

可视化:红色表示降价、绿色表示涨价。

2、比例数据可视化

(1)场景3:某快递公司每天寄件单的揽收时效分布

问题3:展示某日,该快递公司的寄件单的揽收时效分布及其占比情况,应该使用什么图表?

回答:可以用矩形树图,橙色表示当日揽收,蓝色表示次日揽收,标记为二级时效,由于显示原因,蓝色部分上部为“次日12点前揽收”,下部为“次日12点及之后揽收”。

(2)场景4:主流快递公司承运量流向分布

问题4:既要对比同一公司内部,不同流向的包裹的承运量占比;又想对比不同快递公司之间,同一流向的包裹承运量的占比差异,应该用什么图表?

回答:可以用堆叠柱状图,横轴为快递公司分类,每个快递公司的子分类是相同的,纵轴为各子分类数量表示。

可视化如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值