1.原理
数据可视化的目标是展示来自数据分析的结果。虽然图片需要美观,但可视化的首要目标并不是为了高颜值而高颜值。
在数据可视化中使用的配色应该是帮助突出重要数据,进而传播关键信息,而不应该随便配色,不能突出重点。
本文就常见的数据可视化中的相关配色准则进行总结,希望童鞋们可以从中受益。
2.规则一
Rule1: 在应该使用配色的时候使用,而不是在可以使用的时候使用配色
颜色的使用应该仔细思考,以达到传递关键发现的目的,因此,配色这项任务不能留给自动配色算法来做。大多数数据应该是中性颜色,如灰色,保留鲜艳的颜色以将人类的注意力引向重要或非典型的数据。
我们来看个栗子:
上图为1991–1996年的销售额(百万美元)。红色被用来引起人们对1995年异常低迷的销售的关注。其他没有明显销售额变化的年份都是灰色的。
3.规则二
Rule2: 利用颜色对相关数据进行分组显示
颜色可用于对相似的数据进行分组,并使用以下两个调色板来呈现这种相似性的程度:
上图为顺序调色板,它由均匀饱和度,色调单一的强度不同的颜色组成。相邻颜色的亮度变化对应于它们用于显示的数据大小的变化。
发散调色板是由两个连续的调色盘(每个调色板具有不同的色调)相互堆叠而成,中间有一个拐点。当可视化效果上需要有两个不同方向变化的数据时,这种调色盘非常有用。
我们来看个栗子:
下图左边的图表使用由单一色调(绿色)组成的顺序调色板来表示范围从-0.25到+0.25的值,而右边的图表使用发散调色板来表示正值(蓝色)和负值(红色)
上图为2010–2019年美国人口的百分比变化。由两个色调(拐点为零)的红色(蓝色)构成的发散配色方案比顺序配色方案更合适。
在右侧的地图中,仅根据颜色就可以立即识别正值和负值。我们可以立即得出结论,中西部和南部城镇的人口减少了,东部和西岸的人口增加了。这种对资料的关键洞察在左边的图表中并不是立竿见影的,不能用颜色本身来区分,而是必须使用绿色的强度来阅读左侧的地图。
4.规则三
Rule3: 对不相关的数据使用不同类别的颜色
分类调色板来自不同色调但饱和度和强度相同的颜色,可用于具有完全不同来源或不相关值的不相关数据的可视化。
顺序和发散调色板应用于通过编码定性值来呈现大小的变化,而分类调色盘应用于通过编码量化值来呈现不相关的资料类别。
5.规则四
Rule4: 对数据项进行归类
虽然使用不同的颜色可以帮助区分不同的数据项,但一张图表最多只能包含6–8个不同的颜色类别,以便每个类别都容易区分。
我们来看个栗子:
上图中15个国家都使用不同的颜色,使得左边的图表难以阅读,特别是对于卫星较少的国家。而右边的图表可读性更好,代价是丢失了卫星较少国家的资讯,所有这些资讯都被归类在“其他”中。
请注意,我们在这里使用了分类配色方案,因为每个国家/地区的资料完全不相关。例如,印度的卫星数量完全独立于法国的卫星数量。
6.规则五
Rule5: 改变图表型别通常可以减少对颜色的需求
在前面的示例中,饼图可能不是最佳选择。由此造成的类别损失可能并不总是可以接受的。相反,绘制条形图时,我们可以使用单一颜色并保留所有15个数据类别。
如果可视化中需要6–8种以上的不同顏色(色调),可以合并某些类别或浏览其他图表型別。
7.规则六
Rule6: 不使用顺序配色方案的场景
为了使顺序调色板的颜色细微差别很明显,这些颜色必须相邻放置,如下图所示。当像散点图一样彼此分开时,细微的差别就变得很难理解了。
当数据项彼此不紧邻时,顺序的配色方案很难解释,如右侧的散点图所示。这些颜色只能用于可视化相对值,如左图所示。
顺序配色方案的最佳用途是渲染值的相对差异。它不适合绘制使用分类配色方案呈现的绝对值。
8.规则七
Rule7: 选择合适的背景
物体的感知颜色不仅取决于物体本身的颜色,还取决于其背景。这导致我们就图表中背景色的使用得出以下结论:
按相同颜色分组的不同物件也应具有相同的背景。这通常意味着背景颜色的变化必须最小化。
9.规则八
Rule8: 不是每个人都能看到所有的颜色
大约10%的世界人口是色盲,为了让每个人都能获得彩色资讯图表,避免使用红色和绿色的组合。下面显示的是三种不同色盲的人是如何检视同一张地图的。
10.总结
可视化的动力在于讲述数据背后的故事。只有深思熟虑地运用色彩,才能帮助强化数据中的关键论点。
关注公众号《AI算法之道》,获取更多AI算法资讯。