图标清晰、准确、美观
Stephen Few 撰写的有关选择正确图表类型的文章。
Stephen Few 撰写的图形选择矩阵。
Andrew Abela 撰写的图表建议。
基本图标
首先,我们来讨论几个你将经常用到的基本图表。这些也是构建更复杂图表的基本组成部分。
柱状图、散点图和折线图
你已经在上节课的“视觉编码”部分见过三种最常用的图表类型:柱状图、散点图和折线图。
当你对比几组数据时,柱状图通常是最佳选择。人类能够凭直觉根据长条的长度和区域判断区别。长条越大,内容越多。
表格
有时候,你需要显示数据的实际值,这时候适合使用表格。可能有点违反直觉,因为整个这门课程都是讲使用图形而不是表格。但是,有时候更需要观察实际值,而不是进行对比。你也可以在图表中轻松地标注颜色和添加格式(粗体或斜体),强调希望观看者注意的内容。例如,用红色表示亏损,或用绿色表示逐月增长情况。
地理空间图表
地理空间数据(国家/地区、州、纬度、经度)可以通过地图来表示。你通常会见到两种类型的地图。分级统计图在地图上使用颜色来表示与地点相关的另一个值,例如人口、人口密度、GDP 等。示意地图与等值线图相似,但是会扭曲区域(例如国家)界线来表示值,通常还会用颜色表示。我将通过几个示例详细介绍。
分级统计图
正如之前提到的,用颜色表示数据的地图称为分级统计图。这些地图非常适合表示各个地点之间的数据对比情况。通常,此类地图会拆分为各个地区,例如国家、州/省/地区或更小的区域(例如县)。
甚至可以更加细分,例如这个关于美国人口调查种族身份的精彩地图。该地图用一个点表示在 2010 年美国人口调查中记录的每个人。这是用分类变量(种族)及地理空间数据来展示美国公民分布情况的一个示例。
下面是另一个分级统计图示例。
示意地图
示意地图会在地图中通过扭曲区域界线来表示一些变量,例如人口或国民生产总值。示意地图通常还用颜色来表示另一个变量,以便提供更多的信息。适合强调该变量,但是不是准确的表示形式。难以理解扭曲的区域相互对比情况。有时候,某些区域会完全消失或太扭曲变形了,根本不知道看的是什么。
此外,没有任何方法可以绘制示意地图。维基百科文章列出了 25 个创建示意地图的不同算法,请谨慎地使用。
小多组图组
小多组图组是指一系列具有相同标尺的图表,使我们能够轻松地对比几组不同的数据。这些图表可以是任何类型:折线图、柱状图,散点图、地图。
Edward Tufte 在《Visual Display of Quantitative Information》一书中经常提到这一术语。有时候还会称作组图或格子图(我不知道这些术语都是从何而来的,但是的确看起来像格子)。这些图表变成了我最喜欢的可视化方法,并且很热门。要理解为何小多组图组很实用,请看看下面这个折线图:
该图表显示了每组数据中每个成员的线条。所有这些线条都相互堆叠在一起,很难看出相互之间的对比情况。如果每个都单独放入一个图表,那么就能轻松地对比每个成员在一段时间内值的变化情况。
可视化分布
有时候,显示数据的实际分布情况是最佳选择。分布图可能不是正态的!可能存在异常值,使均值出现严重的偏差。条形图等可以隐藏这些问题。你在一开始探索数据时,也需要查看分布图。
直方图
直方图是将值分组成多个值范围的条形图。例如,假设有一组年龄数据:29 岁、69 岁、44 岁、69 岁、31 岁、43 岁、32 岁、62 岁、8 岁、53 岁。你可以将年龄按每 10 岁分组,然后算出每个年龄范围的人数。如下所示:
从图中可以清晰地看出年龄分布情况。我给出了数据很少的示例,但是假设有成百上千个数据点。除非使用直方图,否则无法显示数据分布情况。
值的范围通常称为组距,将数据分组的过程称为分组。明显我对数据进行了分组用的是动词形式。要学会使用正确的术语,这样才能与其他分析师交流。
你将经常用到直方图来可视化连续变量的分布情况。但是,你需要了解一些信息。组距和界点的位置会显著影响到分布图的外观。
分组有个