这一篇是阐述如何选择可视化图表的最后一部分,主要是以下几类数据的可视化:
- 区间型数据:区间型数据一般是用来显示数据当前的进度情况,数据格式一般为数值或者百分比;
- 关系型数据:数据之间有包含关系、层级关系、分流情况、联结关系等;
- 地理型数据:包含地理型信息的数据,如国家、省份、城市、行政区、经纬度等。
1、区间型数据可视化
通过阅读资料可知,区间型数据大致分为两种:
- 比例型区间数据:用来表示某项指标的完成情况,例如销售额完成率;
- 数值型区间数据:根据业务需要对数据进行区间段划分,通常这种划分对应一些定性指标或者颜色映射,比如把商品评分划分对应到满意程度(不满意、一般、非常满意)。
1.1条形进度图
条形进度图通常用来表示某项任务的完成进度,一般用条形的长度表示进度。例如任务下载进度、手机的电量显示、项目完成进度等。根据表现形式的不同,可分为进度图和重叠条形图:
1.1.1进度图
条形的长度表示任务进度,比如某APP的下载进度,如图:
1.1.2重叠条形图
对某种数值或者比例进行区间划分,关联到定性指标,或者将区间映射到颜色上。例如风力的等级划分,映射到颜色上:
可视化如下:
这里指标区间的划分和颜色的选取,可以根据具体业务的实际情况决定。
1.2仪表盘
仪表盘由3部分构成:表盘刻度、指针、指针所在角度,可以直观的展示某项指标的进度(比例型)或实际情况(数值型)。详细介绍如下:
- 表盘刻度:度量某项指标的数值大小,一般是指标的取值范围区间;
- 指针:表示某一指标或者指标的一个维度,一般不超过3个,例如钟表的时分秒针;
- 指针所在角度:确定指针指向的数值,表示当前指标或维度的数值。
例如汽车的速度表盘,表盘刻度为速度区间,指针表示汽车行驶速度,指针角度表示当前速度大小为62km/h,如下:(图片来源为数据科学家联盟公众号)
1.3 环形进度图
环形进度图既可以表示比例型数据(比如销售额完成率),也可以表示数值型数据,并且可将数值与定性指标相关联,比如支付宝的芝麻信用评分的显示方式。
2.关系型数据可视化
关系型数据主要包含以下几种数据关系:
- 包含关系:用韦恩图表示;
- 层级关系:漏斗图或者矩形数图表示;
- 分流关系:桑基图表示;
- 联结关系:节点关系图表示。
2.1韦恩图
韦恩图,又叫文氏图,是用来表示集合之间的关系。这里可以用来可视化数据之间的包含关系,一般用面积的大小表示元素个数,重叠部分的面积,则代表多个数据集重合元素的个数。需要注意的是:多个数据集描述的对象维度需要相同,比如都是用户ID或商品名称等。如图:
2.2 漏斗图
漏斗图可以用来可视化具有层级关系的数据,尤其是流程类的或者有先后顺序的数据,且一般是用来描述单变量在不同环节的变化情况。常使用漏斗图在业务流程比较规范、周期长、环节多的流程分析,通过漏斗各环节业务数据的比较,能够直观地发现和说明问题所在。如图:
2.3矩形树图
在分布型数据可视化中讲到过,矩形树图适合具有树状结构的层级关系数据的可视化,它通过面积来映射数据大小或者数据占比,通过颜色来区分类别。并且当矩形树图有多级结构时,通常需要一些交互来辅助数据细节的展示,如鼠标悬停显示实际数或占比、单击某个类别区域进入该类别细分视图。
2.4桑基图
桑基图,也叫桑基能量平衡图。是一种描述数据分流关系的可视化图表方案,它主要由边、流量和节点组成,其中边代表了流动的数据,流量代表了流动数据的具体数值,节点代表了不同分类。边的宽度与流量成比例地显示,边越宽,数值越大。
桑基图最明显的特征就是,保持能量守恒,始末端的分支宽度总和相等,即所有主支宽度的总和应与所有分出去的分支宽度的总和相等,保持能量的平衡。
目前主要用于描述数据分流,比如能源的用途流向、个人收入和支出流向等。
2.5节点关系图
节点关系图主要用来描述数据之间的联接关系,有以下三部分组成:
- 节点:表示一个对象,常用圆形、方形等形状来表示,有时还会在节点内显示对象图片等信息;
- 线:如果两个节点之间有联系,则使用线段连接,线段上通常会有关系说明;
- 方向:节点之间联系的方向性,使用线段的箭头来表示联系的单向或双向;
适用于人物关系的可视化、个人的社交网络拓扑等。
3.地理型数据可视化
地理型数据,是指数据的维度属性中包含地理信息,如国家、省份、城市、区、街道等。对于地理型数据的可视化,经常用到地图,根据空间维度不同,又可分为二维地图和三维地图。另外把地图还可以与其他可视化方式结合,更充分的表示地理数据。
3.1地图+散点图/气泡图/热力图
-
地图+散点图:用数据的地理属来性确定散点位置,数据大小可以通过散点的颜色来体现,通常会配以色带来映射颜色的取值范围和大小关系。
-
地图+气泡图:数据的地理属性确定气泡位置,数据大小通过气泡的面积来体现。
-
地图+热力图:数据的地理属性确定热力色块位置和面积,但是不代表其他含义,数据大小则通过热力图颜色的深浅来体现,通常会配以色带来映射颜色的取值范围和大小关系。
3.2地图+线图
地图和线图结合,一般是用于数据中具有两个维度的地理信息,用于展示数据的流入或者流出情况,其数据格式一般为:地理信息1+地理信息2+数值。
通常用来表示航班航线的通行量、不同地区人口流动情况等。
3.3地图+饼图
当既要显示不同地理区域某一指标的数据总量,同时又要显示各地区某一指标总量的各构成部分占比情况时,可以使用地图+饼图结合的方式来进行可视化。
地图+饼图可以显示更多的数据项,同时更加直观的展示数据和地理位置的关联性。但是要注意的是地图上的饼图的扇区个数,最好保持在2~4个左右,如果总体分类过多,饼图在地图上就会显得比较杂乱,可以考虑适度重新分组,以保证可视化呈现的最终效果。
4.可视化实践
场景1:比较公司4个部门在2019年的年度销售额完成率
部门 | 2019年年度销售额目标(元) | 截止当前累计销售额 | 销售额完成率 |
A部门 | 10,000,000.00 | 10,478,738.00 | 104.79% |
B部门 | 8,000,000.00 | 7,646,353.00 | 95.58% |
C部门 | 7,500,000.00 | 7,000,000.00 | 93.33% |
D部门 | 7,000,000.00 | 5,000,000.00 | 71.43% |
问题1:老板现在想要比较这4个部门,在2019年的年度销售额完成率,请问用什么图形表示?图表形式不限,需要给出用某种图表的分析思路。
回答:表示任务的完成情况可以用条形进度图表示。x轴为销售额完成率,y轴为不同部门,完成率可以作标签显示,如图:
场景2:某公司组织架构下的人员数量
一级部门 | 二级部门 | 人数 |
A部门 | A1小组 | 40 |
A部门 | A2小组 | 32 |
A部门 | A3小组 | 25 |
A部门 | A4小组 | 8 |
B部门 | B1小组 | 25 |
B部门 | B2小组 | 24 |
B部门 | B3小组 | 8 |
B部门 | B4小组 | 5 |
C部门 | C1小组 | 23 |
C部门 | C2小组 | 14 |
C部门 | C3小组 | 6 |
C部门 | C4小组 | 3 |
问题2:现需要在一个图表中,展示公司的人员构成分布情况,请问用什么图表展示,说出分析思路,并进行可视化。
回答:公司的组织架构是分层的树状结构,根节点为公司,中间节点为部门,叶子节点为小组,因此可以用矩形树图来表示。如图: