什么是数据可视化?

到底什么是数据可视化?带你一窥究竟~

技术人最不该忽视可视化数据分析!

导读:在这个“人人都是数据分析师”的时代,大企业的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接“加工——消费”的重要一环,其质量至关重要。优秀的可视化能促成卓越洞见,糟糕的内容则让所有的努力失去意义。今天高级产品经理沉砂为我们详细介绍数据可视化工具以及如何选择有效图表。


一、前言

我所在的企业数据化管理领域,数据可视化水平参差不齐,尤其是在汇报PPT和报表制作环节...今天,不深度探讨具体业务问题,仅给出一些可视化通用建议。

通过文章你可以获得的建议:

挑选顺手的工具
加工正确的数据
选择合适的图表
一个实例


二、数据可视化工具

在这里首先我想说下数据可视化追求的三个目标:准确、清晰、优雅。符合这三项的图表被称为高效的数据可视化:

准确:精准地反馈数据的特征信息(既不遗漏也不冗余,不造成读者疏漏&误读细节)
清晰:获取图表特征信息的时间越短越好
优雅:美观(不是酷炫)、协调(相同场景的图表遵循统一规范)。

除此之外,这三项的重要性也有相对次序:准确>清晰>优雅,原则上我们该尽量往这三个方面靠拢。

问题来了,如何挑选顺手的工具帮助达成目标呢?

其实应当分情况来看,高效的数据可视化根据目的差异,大致分为两种类型(来自Cole Nussbaumer Knaflic的视频采访):

解释型

已知目标数据的特征信息或者价值;
最大目的是传达解释给其他人自身的洞察;
追求极致的细腻表达。
探索型

未知目标数据的特征信息或者价值;
最大目的是自己分析探索数据;
追求快速高效的数据交互。
大家在开始动手前,不妨先想一下自己是哪种意图,通常情况下鱼和熊掌不可兼得,数据的灵活变换和细腻表达虽然不矛盾,但很难兼顾。这就促成了我们可用的工具都有一定的偏向性,简单易上手的BI工具可以帮助我们快速完成可视化,但有可能内容差强人意。一些专业的图表代码库理论上可以针对任何细节进行调整,但是效率和门槛存在明显劣势。

原则上工具没有孰优孰劣(事实上很多工具两方面都做得很好),只是相对而言。笔者对常见种类的典型代表工具做了一个定性评估(个人意见):

6db217647e9c4760ad5051e2b65b9d0e.png
这里我将Excel与Tableau高亮了出来,Tableau作为业界最著名的BI软件,容易上手,可视化效果也非常棒,有助于你分析探索数据。而Excel是一款被大多数人严重低估的产品,它可以很方便实现各类图表微调,画出漂亮的数据图。 

如果你没什么倾向性,Excel很适合作为你深入研究的第一款数据可视化工具。

三、选择有效的图表

3.1 可视化流程

抛开一些专业理论,简单来讲,我们制作图表的步骤分为3步:

选择要传达的数据信息
寻找可视化方法
实现方法并完善细节
对于步骤1,主要考虑数据本身的信息与作者自身的洞察信息,列清楚这些信息,有助于你选择合适的可视化方法。下文我会讲述一些常用的方法论知识,但不是简单给出你要选择柱形图or饼图。至于具体的图表选用指南可以Google一下。

3.2 视觉编码

首先看两张图:

27560740883d44f2a31233d967657b25.png
由于使用了视觉编码(颜色)传达信息,人们更容易理解原数据的特征了。 

又比如普通的柱形图,我们使用了柱子的“高度”和“相对位置”传达了两组数据信息,而柱形图往往比没进行编码的表格数据更容易理解。

我们要来熟悉两个重要概念:“视觉编码”&“视觉通道”。如果把人类大脑看做是一个信息解码系统,那么可视化就是对信息(数据)的编码过程,信息通过视觉编码后,将内容通过眼睛传达至大脑,大脑解码信息并获取知识。

c2a603a8a43d42e8bdca6d367e8d06c8.png
那么图形的视觉通道有这么多,该如何选择合适的视觉通道映射数据呢?这里需要通过数据的类型以及视觉通道的表现力进行综合判断,基础的学术理论有详细说明,这里我做一下简单介绍。 

数据类型

一般我们数据分为“类别型”、“有序型“和“数值型”三类,苹果、香蕉属于类别,几月几号属于有序,利润5000属于数值。在很多可视化商用工具的概念中,将”有序、类别型“的数据称为维度,”数值型“的数据称之为度量(指标)。

维度和度量所适用的视觉通道是有巨大差异的,例如颜色的色调适用于维度,但不适用于度量。选择正确的视觉通道,令信息传达更有效率。

数据通道的表现力

在浙大教授陈为的著作《数据可视化》(陈为 沈则潜 陶煜波. 数据可视化[M]. 电子工业出版社, 2013)中,使用4个指标作为评判一个通道的表现力标准:

精确性
可辨认性
可分离性
视觉突出
深度理解这些标准,有助于我们明白一些可视化图表修改建议背后的深层次原因。

5196430a09d24a309fefe792210db50c.png
这组测量数据采用科学的方法反映了一些制作经验的合理性,比如: 

一些专业设计师非常反对使用饼图——面积&角度与人类的感知联系不是线性变化。
使用长度映射数据的柱形图通常是最佳可视化选择——长度与感知是线性变化。
常规商业统计图表永远不要使用3D效果——体积严重影响人类感知的精确性。

2f9f761bbb1648539c0fc2962050b737.png 

可分离性告诉我们不能无限制的使用多种视觉通道,每增加一种通道来映射数据,都需要考量对已有编码方式的影响,尤其是尺寸(size)特别影响其他视觉通道的效果。

我们结合柱形图做一个举例,下图的柱图使用了宽度(size)映射了一个度量字段数据,宽度影响了长度的有效力,这两个通道的同时使用,使得感知上有趋近面积这一通道,从而影响了整体图表的效果。

e342522981da4319ac5d47591bd43adb.png
有一次一位业务的同学问我为什么不给柱图的柱子加“圆角”功能,其实也是这个原因,过度的圆角会使长度损耗精确性,对于图表的整体表现力是破坏。 

892310fbb16b467287a840d6ad4db2c7.png
数据的视觉编码在学术上有一个冗长的表现力优先级列表,我在这里简化这些概念,只给出一份推荐使用的视觉通道,理论上这些通道之间都可以组合使用,请根据实际情况挑选最佳方案。 

另外一个行之有效的实践方式是:不要从头构建可视化的方案,请在最基础的统计图类型之上选择追加视觉通道,然后不断尝试效果。不是什么图表都可以用所有通道的,例如行政地图就没有长度通道。

d8076b8bee424ab3a4a2c39e53245477.png
3.3 设计原则 

设计图表,好的视觉编码是最重要的点,除此之外,对数据的筛选也是一项挑战,过大的信息量会使图表显得混乱,造成认知负荷。对于JavaScript构建的可视化内容,我们还需要关注数据交互。

认知负荷

一般的可视化文章会用墨水比这一项指标来衡量负荷的轻重。设计的不合理,会给受众过度、冗余或者毫无意义的信息传达。

首先我们要关注的是是否呈现了过多数据、滥用了视觉通道。

6961fea293044046a3c6f3739e8d71c6.png
其次,我们可以利用格式塔原理精简或者优化我们的图表元素,减轻认知负荷。 

完整的原理一共有8项内容,这里我主要介绍最为重要的临近原则、相似原则&闭合原则。

临近原则

人们倾向物理上相近的元素为一个整体。

我简单打出一行点:

... ........ .......

你会很自然地认为这是三个群体。利用这个心理学现象,我们构建了典型的“分组柱形图”

3b4ecf2bebc241279b62085808aa4cb3.png 

也可以用于引导用户阅读表格数据(来自Cole Nussbaumer Knaflic的blog):

1df383623e734812a1bfbd62f85e7162.png 

相似原则

人们倾向将颜色、大小或者形状等属性类似的对象看作一个整体(或者具备关联性)。

这种心理学现象,叠加颜色色调的处理,很容易促成视觉突出,使我们能够快速注意到被处理的目标数据。上文视觉编码数“5”的举例,便是相似原则的一个案例。

ee7622c000124f1094a6be4063ec5bf1.png 

个人实践感觉颜色是应用相似原理最好的视觉通道,我们能够通过“图例”将图例标注信息与画图区域的内容对应起来,简单来说,也是这一心理学现象在起作用。

我们可以更进一步使用这一效应来帮助用户解读图表

779b8468f78a4ed49eaf81d4414ba40c.png 

闭合原则

人们倾向物理上被包围在一起的元素为一个群体。

b3001974f6a0435ea9f0dfbdc0771605.png 

闭合原则经常被使用在标注注释上,使用少量的“水墨”便能将目标区域的视觉突出起来,我们拿上面相似原则的案例做进一步加工,来说明闭合原则的功效。

3b415644bba94dafbcf0380272bf3753.png 

灵活利用格式塔原理与视觉编码特性,是数据可视化在具体图表之下的更为重要的知识技巧。篇幅原因,不再一一列举。

当我们看到一副图表,凭借自己朴素的美学经验指出图表缺陷时,不妨深入思考下,这个缺陷是违反了哪一条心理学原理,还是水墨比(信噪比)不平衡。

3.4 经验之谈

可视化的实践经验太多太多,我想再着重强调一下位置和颜色的巨大影响。

位置

位置是一个丰富的概念,图表一切的元素都处于“位置”之中,你不得不谨慎对待元素的位置属性。无论是轴标记位置、文本说明位置、标题位置、图例位置还是图形本身的相对位置。摆正它们,可以使图表不显得信息杂乱,可以帮助用户更容易理解你想传达的信息。

对齐:心理学的“连续原则”使得对齐创造一条看不见的路径,引导人们更容易解读信息,任何时候都要注意对齐的使用。
排序:任何时候,我们都需要对数据排序。柱图的柱子从来都不该是被随意摆放的,排序是对元素的位置属性最重要的应用。没有规律的数据表达会给用户带来额外的解读负担。
参照:位置都是相对的,如果我们想准确解读数据的位置,就一定需要一个参照系。这个参照系可以是X轴Y轴,也可以是两个点或者柱子之间的相对参照,总之你得有一个。
颜色

颜色是最重要也是最容易被滥用的视觉编码方式,颜色具有色调、饱和度、明度的三重变化,同时颜色的变化还牵引着人类的情绪,所以颜色的使用需要被数据可视化制作者认真考虑。在这里再补充一些实践上的心得:

尽量避免同时使用红色&绿色,色盲的同学无法分辨他们,这也是为什么大多数图表库和软件的默认颜色的第一序列是蓝色;
维度数据使用色调,度量(指标)数据使用饱和度和明度;
在保证信息完整传达的前提下,使用的颜色越少越好;
颜色在上下文需要保持统一步调,例如之前的图用“绿色”代表香港,下面的图就不应该使用“黄色”或者“红色”,“预测数据”使用绿色,“实际数据”使用蓝色,保持秩序,减轻用户认知负荷;
颜色能比其他视觉通道更能引起注意,也就意味着更容易使人疲劳。确保你使用的颜色是“有序”的,五彩斑斓、明暗跳跃的色彩序列并不可取;
设计之前,可以参照一些品牌设计手册,一般被叫做visual manual。阿里几乎每个BU都会有类似的材料,可以找你们的UED同学要。使用品牌色更容易获得目标人群的青睐。但是也不是所有的品牌色都适用,使用前应当思考下效果。
注意你使用颜色的场合,事实上由于各国文化和宗教信仰的不同,相同色彩在不同人群中的情感性质很不一样。比如中国人喜欢红色,但是不见得西方国家喜欢。还有医院和金融业,也是典型的颜色敏感行业,给炒股的老板看图表不要用绿色作为主色调......
放弃酷炫,我们看数据不是为了酷炫。
统计图表选择推荐

这个网上资料一抓一大把,选择图表前,其实更多的是要想清楚你的数据想传达的目的。数据分析纷纷咋咋,总结起来,不外乎4个目的:对比、聚焦、归纳、演绎。基于这些初始目的出发,我们再选择实例化它。

30bea519cfb945dda7cc96fd73316064.png 

下图是一张广为流传的图表建议:

689a919fc5f54484bc0e025cb39e26a3.png 

技术人最不该忽视的数据可视化分析中,英国的金融时报杂志也出过的建议原图下载地址(放大再放大就能看清字啦[调皮]):

四、准备数据

4.1 为可视化调整数据结构

一般来讲,制作数据图表前,或多或少有一系列数据的采集加工环节,以集团开发同学熟悉的ODPS为例,简单来讲如下图流程所示:

a3e0a5a11f9e4826929e561cb0844aeb.png 

多数数据仓库为了满足一定的设计规范、维护能力与健壮性,不会允许数仓上层应用做定制化侵入设计,而各类应用所需要的数据格式不尽相同,在可视化领域,为最后的图表制作,对数据进行一些调整非常常见,特别是使用BI软件进行制图,包括不仅限于以下调整:

1.行列转换

比如为了进行数据对比分析的簇状柱图,不同工具配合交互时,有不同的设置方法。需要对表中的行列数据进行灵活转换,以符合软件要求。

1ca90cd344764499b38fb88c87d97f3b.png 

2.可读性转换

原表数据中,很可能只有"ID"、"XXX编码"、英文内容等特征数据,为了我们最后的可视化加工效果,为了图表易于解读,我们需要更多的额外数据进行关联处理,比如:

找到这张“事实表”的关联“维表”,拿到ID背后的中文名称、姓名等信息;
将英文翻译成对应中文,比如将male与female转换成“男”跟“女”;
找到“短名称”、“昵称”等易于识别的数据;
从时间数据字段中转换出“季度”、“财年”、“周”、“交易日”等契合业务场景的时间类型字段。
3.针对业务场景的转换

此类转换需要结合一定的具体场景,一般来讲,原始表只提供原始数据,具体场景提供数据转换规则,典型的例如:

将“年龄”分段,原始表只记录用户的生日,后期加工成“18~24岁”、“25~30岁”等范围字段值,这类加工有助于用户解读和构建可视化内容。
新顾客、老顾客。“新”与“老”都是随着时间推移的相对概念,不太会存储在数仓的原始数据表中,用户需要根据当前分析的时间窗口,自助加工出新老顾客的定义字段。
4.2 剔除异常数据

原始数据中,不免混入异常数据,我们把错误数据(脏数据、测试数据)和不合理数据统称为异常数据。这些数据不剔除,会直接影响可视化最终的展现效果,从而影响分析效果和决策效能。我们在制作图表前,一定要做这一环的处理。

不合理数据也是相对于具体的分析场景而言的,例如,我们为衡量电话营销人员的表现设定了一个数据指标——平均每周成功3单推销即为优秀员工,这里就需要结合场景将“实习期员工”剔除,或者说,将工作年限过短的样本数据剔除。

4.3 对特殊值做精细化处理

为了可视化效果,我们需要关注那些含义不明的数据和“极端数据”,这些数据的存在有时候会直接影响我们的内容展现。

空、null、0

这3个数据值是典型的“含义不明“数据,有些场景下,他们表达的意思相同,有些则代表了截然不同的信息。我拿”考试“作为一个case来比喻这三者的区别:

0:小明参加了语文考试,得了0分;
空:小明没参加语文考试;
null:小明没有语文这门考试。
在进行可视化表达时,一定要注意对数据的准确表达。

极端数据

极端数据指一种样本数据极端分布不均匀的情况,比如“100条某产品的销量分布,1条记录10W,其余99条记录在0~1000之间,“如实”反应数据的图表将很难看出大部分样本数据的特征信息。需要结合业务场景,做应对处理(比如剔除&“矮化”极端数据,并做对应的文本解释)

8a1b565c9def46e3b8b642405fed4a65.png 

4.4 汇聚数据到合理程度

在使用BI工具进行可视化展示的时候,需要注意原始数据的数据量大小。通常软件服务所在的服务器性能不是无限的,合适大小的数据量有助于取得交互展示的最佳表现。

当原始数据过大,我们可以根据实际场景,剔除某些字段,对数据进行汇聚。

另外,大部分工具都支持“派生字段”,尽量在“物化”或者“实体表”阶段固化这些派生数据,也有助于性能表现。对于BI软件需要计算的派生数据而言,计算发生的环节决定其性能表现:

计算在加速数据环节 > 计算下放计算引擎 > 内存计算 > 发生内外存交换的计算

五、一个实践案例

本文粗浅介绍了一些数据可视化的技巧,但是远远谈不上完整。要做到“可视化最佳实践”还需要大量知识补充,并且加以灵活应用。

在这里介绍一个可视化图表优化的优秀案例,原始材料来自Cole Nussbaumer的英文blog,有兴趣的同学可以翻翻她的博客,会获益良多。同样D3作者Mike Bostock也产出了大量高质量的可视化内容,非常值得借鉴。

案例:对资本预算数据的可视化改进

原始图表

dbea88eb0dd84f169c3495419e1cd704.png
咋一看这图也没啥错,但是博客作者看到了一些改进点: 

Y轴标签的可读性
X轴未区分过去与未来的区别
其实还有其他隐藏改进信息未指出:

上文讲述过视觉通道会相互影响有效性,这里图例中的小正方形尺寸过小,影响了颜色的解读,这就使得蓝色的major projects和浅蓝色的proposed allowance难以区分。(试想一下你在平常遇到的更极端的图例解读困境);
轴的黑色标签的颜色饱和度太高,影响了图本身的视觉突出。(稍微浅色一点的label更容易将用户引导至关注数据本身);
缺少度量数据说明。
改进版本一

949afd456ae342cc86a81cf282e06dab.png
这里作者取消了图例的点标记,将文本着色,解决了图例识别的问题。 

此刻作者遇到了困境,不知该如何进一步改进。不过能够显而易见的是,改进版本一的水墨比过重,用了较多鲜艳的色调,并且同时使用了色调、图案两项视觉通道。着墨过多,但又没有明显传达更多数据信息。

于是作者在改进版本二中做了各项分析,下图将图表黑白化去除干扰的做法非常值得学习,对于一些设计同学可能这种做法很熟悉,色彩会干扰设计师的判断(PD一般画原型的时候是黑白的)

改进版本二


三个主要项目的预算从2018年到2019年显着下降,然后随着时间的推移缓慢下降:

 

f979c345ead24087bcba814fb7877e60.png  

其他项目也有下降的趋势:

 

 

91c5a07e709a46e48a26d5635b7ac8fd.png 

新项目的预算则在显著增加:

 

70f340d1bd244b08a4636a09a5d249e1.png 

其他两项的分析类似:

 

aed6937407064776a2c6ff0d31e3fd40.png e798bfac00124d5da0ea310acbf500c1.png  

作者在改进版本二中分析出了一些数据特征,显然这些特征还没有在可视化中表达出来,图表还有改进空间。

改进版本三

a5b6674810984e98a899a8228ddb0b26.png
在改进版本三种,作者使用了客户的品牌色(这种手段通常很好用,除非客户的品牌色“大红大紫”) 

并且将用户的视角引导到了建议配合与现有配额上来。

e9905592ddd744a3996c016a61c127bb.png 

很明显,我们看到了两组数据的规律,那么如何通过可视化将这个规律更加简明易懂的传达给用户呢,作者改进了图表的标记形式。

改进版本四

cfb8e5cabed6481cb62b46d63cb690d4.png
到了这一步,改进已经相当成功,仿佛我们把之前的信息补全就大功告成,而作者进行了更多思考:用户应该关注两条线之间的相对变化,并更新了改进版本: 

改进版本五

04f4adfd6f524f6d91e2121228af3d2f.png
接下来是最后加工:将自己的见解和洞察以合适的方式放入图表中。 

最终版本
将之前被忽略的数据重新以合适的方式放入图表中,并且注解文字的使用也遵循了相似原则,来建立图形与文字的关联性。

2edfba4711f34121a08a7bcc7be19e52.png 

数据可视化的七大趋势

随着科技的不断进步与新设备的不断涌现,数据可视化领域目前正处在飞速地发展之中。

ProPublica的调查记者兼开发者Lena Groeger,以及金融时报的数据可视化记者Jane Pong在2017年全球深度报道大会上分享了他们对当前数据可视化趋势的一些看法。

1. 玩转地图

Groeger表示,目前的可视化技术水平已经远远超出了Google Maps,而且每天都会出现很多实验性的技术。 “现在你可以用地图来讲故事。例如,蒂姆·华莱士制作的这张地图就根据每个洲的投票情况来展示美国的领土情况。”

31c07dc38179428cb02f559167bb5a69.png 

用于描述驾照需求变化的驾照统计地图。


有一些设计师正在尝试通过在地图中添加数据来说明不同区域的统计情况。这对于选举地图来说是一个非常流行技术,但这也适用于其他一些类型的统计。Groeger提到,在华盛顿邮报上曾刊登过一个用于说明新驾照需求的驾照统计地图,这是一个非常不错的例子。

2. 定制数据

Pong表示,尽管记者可以利用的开放数据越来越多,并且这对数据的可视化也是有利的,但这也同时意味着每个记者都在使用相同的数据。要让自己的报道与众不同,就必须要创建自己的数据集。创建自己的数据集的一种方法是将多个数据集组合在一起,但有的时候,最好还是创建自己独特的数据集。

金融时报曾刊载过一篇有关数据驱动的故事和中国熊猫贸易的可视化数据的文章。

66bac2095df54627830c436e56bc3ca9.png 

单词:在电影中最常用的单词
Pong表示,另一种越来越流行的技术是将“非标准数据”变成可用的数据集。这方面的一个例子是Pudding公司提出的电影对话可视化。该项目分析了2000个剧本,并按性别进行划分来创建电影剧本的视觉展示效果。

3. 由你来画

Groeger指出,吸引读者的最有趣的视觉技术之一就是“由你来画”图表,即在向读者展示数据之前首先要求他们进行输入。 “这个技术并不只是向他们展示数据,让他们关注在数据点上,而是鼓励读者首先想象一下数据应该什么样的,即使他们并不知道底层数据的样子。”

4848b573dda948cf9c29b030edeb7c26.png 

由你来画:“泰晤士报”让读者首先在图表上绘制自己的曲线。
“纽约时报”上也曾出现过类似的例子,“家庭收入如何影响孩子上大学的机会”。该文章首先让读者画出家庭收入与上大学之间的关系。一旦读者画出了自己的曲线,真实的数据就会展现出来。另外,读者还可以看到其他读者的预测以及他们是如何比较的。

4. 情感故事

Pong指出:“我们并不是经常把数据和情感放在同一句话中,但是将数据和情感一分为二在很大程度上是错误的。” 她说,数据可视化可用来迎合人们的情感,让他们能够更好认识主题。Federica Fragapane和Alex Piacentini的“路线背后的故事” 就是一个很好的例子,这是一个有关追踪六名寻求庇护者前往意大利的视觉故事。 Pong说:“这只是一份数据,但是它展现出了很多的细节,并鼓励读者参与到故事中来。”

3a65410b15e34e6491ccaba983447b70.png 

画一条线:“路线背后的故事”,追踪寻求庇护者的旅行
同样的,华盛顿邮报的“性别薪酬差异”采用了相对抽象的数据集,并将其可视化,以使得数据的现实意义变得更加明显。而英国“金融时报”的“Uber游戏”则邀请读者来认识Uber司机,因为他们在零工经济中扮演了工人的角色。

5. 响应式设计

Pong表示,越来越多的数据可视化设计人员需要考虑他们的作品如何在移动设备上展现。有一种方法是为桌面提供完整、详细的可视化,然后为移动设备将图形分解为一些基本的图形,并用不同的数据表现出来。

国家地理在“苏格兰的荒野”中使用了这种技术。在桌面版本中有一个包含多层数据的苏格兰高度详细的地图。而在移动设备上,大地图被分成多个基础地图,每个地图展现的数据不同。

金融时报的“一带一路”则使用了不同的技术。它的桌面版本把屏幕分成了左右两部分,左侧的地图会随着浏览器的滚动而改变。而在移动设备上,地图固定在屏幕的顶部,随着浏览器的滚动而变化。

Pong说:“目前,在移动设备上实现可视化仍然非常困难,但是它一直都在不断地发展,人们研究新技术的脚本不会停止。”

6. 简单,简单,再简单

ddb10f2012d147f69562f35931aa22ac.png 

美国的死亡:泰晤士报有关大量枪杀案的社论
Groeger指出,数据可视化的趋势之一就是简化。 “在某些方面,这可能是对疯狂、复杂的可视化的一种解决方案。而且,简单的可视化效果在手机上的效果往往更好。” 纽约时报的“有关美国大量枪击案的社论”就是一个很好的例子。该图形由存在枪击案的月份组成,并突出显示有枪击案的那一天。 Groeger说:“日历是数据可视化简单而又强大的表现方式。 这是泰晤士报的一篇社论,这张图说明了可以将数据压缩成一张图表,并表达出作者的观点。”

7. 小图和GIF动画

Groeger说,小图是以可视方式呈现数据的一种有趣的方式。 “利用这种技术,同样的图像会一遍又一遍地重复(使用不同的数据),这样大脑就可以呈现出微小的变化。”

0918aef5b72c4f6cbf03329fa33e5f89.png 

伤害:泰晤士报上刊登的“脑损伤”


纽约时报的“足球运动员的脑部伤害”使用了这种技术,110名足球运动员的大脑并排显示在一起,因此,它们之间的变化很容易看出来。

Groeger指出,虽然大多数的数据可视化涉及到复杂的编程,但Gif也可以是一个有用的表示工具。 Gif是一种简单易懂的概念解释方法。科学杂志的“鸡蛋”使用了很多循环播放的Gif动画来解释鸡蛋是如何滚动的、不同钙含量的鸡蛋的形状有何不同等问题。

文章原标题《Seven Trends in Data Visualization》,作者: Alastair Otter,译者:夏天,审校:主题曲。

掌握这25条小贴士,快速提升数据可视化能力!

可视化不是单纯的数据展示,其真正价值是设计出可以被读者轻松理解的数据展示。设计过程中的每一个选择,最终都应落地于读者的体验,而非设计者个人。

189326357f904bfdad65eee970cd9197.png 

本文提到了一些常见错误,也是我们团队总结出的一些技巧。这25条小贴士能够快速提升和巩固你的数据可视化设计。一起来看看!

一、原则

1. 选择可以讲故事的图表

你首先需要思考清楚你想达到什么目的、传达什么信息、以及你的用户是谁等。

2. 删减与故事无关的元素

这并不意味着要减少数据量,而是要多留意图表垃圾、多余的信息、不必要的说明、阴影、装饰等。可视化的绝妙之处在于它可以四两拨千斤般强化并传达你想表达的故事。(但可别用3D图表——它会让视觉化感知效果出现偏差)。

3. 为了更好的理解去设计

创建好可视化原型后,退一步考虑如何才能让读者更容易地理解数据。还可以增加、微调或者移除哪些简单的元素?或许要在线性图表里增加一条趋势线,你也可能会发现饼图切片太多了(最多能用6片)。这些微妙的调整将会带来极大的改变。

a2f8bd948cc44e8088e5d45c6b61e695.png 

二、对比

可视化让数据对比更直观,但是仅仅把两组图表紧挨着放在一起并不能达成这个目标,甚至更令人费解。(试想将32个不同的饼状图放在一起对比?No way!)

4. 加入零点基准线

尽管线性图表不一定从零点开始,但如果图表中含大量对比数据的话,零点就很有必要。相对来说,数据的小幅波动是有意义的(比如股票市场的数据),那么你就需要截断一个范围以展示它们的不同。

5. 选择最高效的可视化图形

保持视觉的一致性,让读者可以一眼辨别出,这意味着你可能要使用堆叠型柱状图、分组条形图或者折线图了。但无论选择哪种图形,不要让读者费力去对比太多东西。

6. 注意摆放的位置

如果用两个好看的堆叠型柱状图让读者去对比,但如果它们相距甚远,那就别谈什么对比了。

7. 讲完整的故事

或许你第四季度的销售额增长了30%,这是不是很令人兴奋?但还有更令人兴奋的,对比展示第一季度的数据,销售额就有了100%的增长。

9527fd131cf743e9b62dee0e0e98ec3d.png 

三、上下文

诚然,数据与数字相关,但它通常结合上下文,一般是为后文要点提供背景知识。但在诸多数据可视化、信息图表和电子书中,我们看到的都是将数据可视化和上下文对立起来,而非结合使用。

8. 不要过度解释

如果上下文已经提到了某件事,副标题、标注、标题中不必重申一遍。

9. 让图表标题简单扼要

没必要用俏皮、啰嗦或双关的语句。图表上方的描述性标题应简明扼要,并与下方图表直接相关。记住:关注那些让人快速理解的方式。

10. 善用标注

标注并非用来填充空白的,而该用来强调相关信息或提供额外的背景知识。

11. 不要使用让人分心的字体或元素

有时确实需要强调某一点,只要用粗体或斜体文字即可,无须同时使用二者。

e4fb34d2061b4b2993a432f53be03cc8.png 

四、颜色

使用得当,颜色是出色的工具。但使用不当,不仅会让读者分心,甚至会产生误导。因此,请合理地使用颜色。

12. 使用一种颜色去表达相同类型的数据

如果条形图展示了月销售数据,那只需一种颜色即可。如果要在一组图表上对比今年和去年的销售数据,那么可用不同颜色代表不同年份的数据。另外,还可使用一个强调色去突出重点数据。

13. 注意积极和消极数据的表达

不要用红色表示积极数据或用绿色表达消极数据。这些颜色关联历来很强,它们早已在读者心中打上了标签。

14. 确保颜色间有足够的对比

如果颜色过于相似(例如浅灰与更浅的灰),人们难以发现两者间的区别。相反,也要避免强烈的对比色,例如红配绿或蓝配黄。

15. 避免使用图案

条纹和波点图案听起来有趣,但却十分让人分心。如果你想在地图等地方加以区分,可使用不同饱和度的同色,而且要纯色实线。

16. 使用恰当的颜色

当图表中的某些颜色比其他颜色更加突出时,会给数据增加不必要的重要性。因此,应该使用阴影有区别的单色或相同光谱中的两个类似色来区分强度。记住要用直觉以及色彩明暗去调整重要性。

17. 不要在一张图上使用6种以上的颜色

看图足矣。

328f521b6d6d4b0097806b1c4cb37934.png 

五、标签

标签可能会变成雷区。虽然读者依靠标签来解释数据,但是太多或太少都会产生干扰。

18. 保证一切都贴上了标签

确保所有需要的信息都有标签——并且没有重复或拼写错误。

19. 确保标签可见

所有标签应清晰可见,并且对应的数据点都可以轻松识别。

20. 可以直接标记线条

如果可能,请在数据点中包含数据标签。读者可以快速识别线条和对应标签,不必寻找图例说明或类似的数值。

21. 不要过度标记

如果数据点的精确度对于故事讲述很重要,那么请包含数据标签以增强理解力。若并不重要,请忽略数据标签。

22. 不要倾斜地放置标签

如果在数据轴上的标签过于拥挤,请考虑删除轴上的其他标签,以使文本排布更舒服。

e7e1546979c44bc0b491344ee3ab64fd.png 

六、排序

数据可视化旨在帮助理解,难以理解的随机模式让人感到沮丧,并会破坏想传达的内容。

23. 直观地排列数据

图表应该有一个逻辑结构,可以将数据按照字母、顺序或大小类别排列。

24. 排序连贯

图例的排序应和图表中的顺序保持一致。

25. 排序均匀

在轴上使用自然增量(0、5、10、15、20),而非不均匀的增量(0、3、5、16、50)。

13e0c4708f874c0d9fba68be668d1b9a.png 

33种经典图表类型总结,轻松玩转数据可视化

随着时代的发展,越来越多的数据量堆积,然而这些密密麻麻的数据的可读性较差并且毫无重点,而数据可视化更加直观有意义,更能帮助数据更易被人们理解和接受。

因此运用恰当的图表实现数据可视化非常重要,本文归结图表的特点,汇总出一张思维导图,帮助大家更快地选择展现数据特点的图表类型。

460d975d71f04bf18f522e2e1eda2b62.png 

▲图表类型-思维指南(点击可放大)


接下来我将依次介绍常用图表类型,分析其适用场景和局限,从而帮助大家通过图表更加直观的传递所表达的信息。

1. 柱状图

1d521362850d42b18484bc06de5e89cf.png 

▲柱状图
展示多个分类的数据变化和同类别各变量之间的比较情况。

● 适用:对比分类数据。

● 局限:分类过多则无法展示数据特点。

相似图表:

● 堆积柱状图。比较同类别各变量和不同类别变量总和差异。

● 百分比堆积柱状图。适合展示同类别的每个变量的比例。

2. 条形图

190360e458b543ea843a03ca7dcb95bc.png 

▲条形图
类似柱状图,只不过两根轴对调了一下。

● 适用:类别名称过长,将有大量空白位置标示每个类别的名称。

● 局限:分类过多则无法展示数据特点 。

相似图表:

● 堆积条形图。比较同类别各变量和不同类别变量总和差异。

● 百分比堆积条形图。适合展示同类别的每个变量的比例。

● 双向柱状图。比较同类别的正反向数值差异。

3. 折线图

4019ce2fb7bd40fa8da43758752f358f.png 

▲折线图
展示数据随时间或有序类别的波动情况的趋势变化。

● 适用:有序的类别,比如时间。

● 局限:无序的类别无法展示数据特点。

相似图表:

● 面积图。用面积展示数值大小。展示数量随时间变化的趋势。

● 堆积面积图。同类别各变量和不同类别变量总和差异。

● 百分比堆积面积图。比较同类别的各个变量的比例差异。

4. 柱线图

7eb3f51ee3224fd592520bfce0a6dfce.png 

▲柱线图[1]
结合柱状图和折线图在同一个图表展现数据。

● 适用:要同时展现两个项目数据的特点。

● 局限:有柱状图和折线图两者的缺陷。

5. 散点图

c26e002c7c814b2798af9085623df787.png 

▲散点图
用于发现各变量之间的关系。

● 适用:存在大量数据点,结果更精准,比如回归分析。

● 局限:数据量小的时候会比较混乱。

相似图表:

● 气泡图。用气泡代替散点图的数值点,面积大小代表数值大小。

6. 饼图

6bcebe59dcb14c119ff917bc23930d52.png 

▲饼图
用来展示各类别占比,比如男女比例。

● 适用:了解数据的分布情况。

● 缺陷:分类过多,则扇形越小,无法展现图表。

相似图表:

● 环形图。挖空的饼图,中间区域可以展现数据或者文本信息。

● 玫瑰饼图。对比不同类别的数值大小。

● 旭日图。展示父子层级的不同类别数据的占比。

7. 地图

7c73aff32fb94dfb8d52211b204ab1ad.png 

▲地图
用颜色的深浅来展示区域范围的数值大小。

● 适合:展现呈面状但属分散分布的数据,比如人口密度等。

● 局限:数据分布和地理区域大小的不对称。通常大量数据会集中在地理区域范围小的人口密集区,容易造成用户对数据的误解。

相似图表:

● 气泡地图。用气泡大小展现数据量大小。

● 点状地图。用描点展现数据在区域的分布情况。

● 轨迹地图。展现运动轨迹。

8. 热力图

4b91e780d0bd468c8e308ffd4646e803.png 

▲热力图[2]
以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。

● 适合:可以直观清楚地看到页面上每一个区域的访客兴趣焦点。

● 局限:不适用于数值字段是汇总值,需要连续数值数据分布。

9. 矩形树图

54ff2a38b074465aa2706ec69507fa6f.png 

▲矩形树图[3]
展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,比如商品品类等。

● 适用:展示父子层级占比的树形数据。

● 缺陷:不适合展现不同层级的数据,比如组织架构图,每个分类不适合放在一起看占比情况。

10. 指标卡

caf0d839bdeb458a81a32c1860a742d3.png 

▲指标卡[4]
突出显示一两个关键的数据结果,比如同比环比。

● 适合:展示最终结果和关键数据。

● 缺陷:没有分类对比,只展示单一数据。

11. 词云

1ab8547b6f8a4d7d9fa2a68f26305fe0.png 

▲词云[5]
展现文本信息,对出现频率较高的“关键词”予以视觉上的突出,比如用户画像的标签。

● 适合:在大量文本中提取关键词。

● 局限:不适用于数据太少或数据区分度不大的文本。

12. 仪表盘

c90a743acc4046a99f2224ea5316658a.png 

▲仪表盘
展现某个指标的完成情况。

● 适合:展示项目进度。

● 局限:只适合展现数据的累计情况,不适用于数据的分布特征等。

13. 雷达图

d38badec7d10485fa02600408386aa12.png 

▲雷达图[6]
将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点。

● 适用:了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异。

● 局限:分类过多或变量过多,会比较混乱。

14. 漏斗图

3b015c48ad114b9482d2e68ff5bac9b2.png 

▲漏斗图[7]
用梯形面积表示某个环节业务量与上一个环节之间的差异。

● 适用:有固定流程并且环节较多的分析,可以直观地显示转化率和流失率。

● 局限:无序的类别或者没有流程关系的变量。

15. 瀑布图

9cecabfa6add405b8cc95594f007c090.png 

▲瀑布图
采用绝对值与相对值结合的方式,展示各成分分布构成情况,比如各项生活开支的占比情况。

● 适合:展示数据的累计变化过程。

● 局限:各类别数据差别太大则难以比较。

16. 桑葚图

339c6f04c81e48b1b5e453cde1c799bc.png 

▲桑葚图
一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,起始流量总和始终与结束流量总和保持平衡。比如能量流动等。

● 适合:用来表示数据的流向。

● 局限:不适用于边的起始流量和结束流量不同的场景。比如使用手机的品牌变化。

相似图表:

● 和弦图。展现矩阵中数据间相互关系和流量变化。数据节点如果过多则不适用。

17. 箱线图

41e88f3edb8647719c323adff41d2052.png 

▲箱线图
是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。

● 适用:用来展示一组数据分散情况,特别用于对几个样本的比较。

● 局限:对于大数据量,反应的形状信息更加模糊。

Top 7大开源数据可视化分析工具!

目前,我们可以在市场上找到很多用于网络分析和数据可视化的开源工具,例如NetworkX,R和Gephi中的iGraph包等。在所有工具中,Gephi一直以来被认为是最值得推荐的,它可以帮助用户轻松实现超过十万个节点的可视化。但是,除了Gephi,还有很多免费开源工具可供选择,本文列出了顶级的七大数据可视化分析工具,可帮助企业分析并梳理数据之间的关系。

1、Gephi

Gephi是一个开放式的图形可视化平台,基本也是市场上公认的领先分析软件之一,也是最受欢迎的网络可视化分析软件包之一。使用者不需要具备任何编程知识,就可广泛使用Gephi生产高质量的可视化图表。它还可以处理相对较大的图形,实际大小取决于基础结构参数(特别是RAM),但应该能够毫无问题地运行多达十万个节点。它可以计算一些常见指标,比如度数,中心性等,重点关注可视化而非分析的强大工具。

2、Cytoscape

Cytoscape同样是一个开源可视化平台,有桌面版本和Javascript版本供开发人员选择。虽然,Cytoscape主要用于生物学领域,但它能够产生高质量的可视化图表且同样适用于其他领域,Cytoscape还有一系列用于网络操作和可视化的算法。

3、Ucinet

Ucinet主要用于学术界,提供广泛的分析功能并可计算大量指标,但它的重点并不是可视化而是分析,Ucinet擅长计算并分析各种类型的指标,但并不擅长将这些结果转化为精致的可视化报表。Ucinet只能在Windows上运行,因此Mac用户必须通过安装虚拟机来使用。

4、NodeXL

该工具在高质量可视化方面可能无法提供Gephi具备的灵活性,但该软件可接口SNAP库并进行分析,使其可以访问一组用于度量计算的高效算法。NodeXL的主要优点是其可视化、分析和数据收集功能比较强大,可与Twitter API良好接口,研究人员曾利用NodeXL对社交媒体数据进行可视化和分析。据报道,NodeXL接下来会有一个商业版本,它将具有比开源版本更多的功能。

5、NetMiner

NetMiner是一种商用SNA软件,可用于对大型社交网络数据进行探索性分析和可视化,主要用于社交网络的一般研究和教学,它允许科学家和研究人员以可视化和交互方式分析数据,并了解网络的基本模式和结构。它的主要功能是网络分析、数据转换、统计、网络数据可视化和绘制图表等。

6、Pajek

Pajek是由研究人员Vladamir Batagelj开发的高级免费软件,广泛用于大型网络分析和可视化。Pajek也被称为Ucinet的免费替代品,并提供强大的分析工具和免费文档,以帮助研究人员快速开始使用。

7、Social Networks Visualizer

Social Networks Visualizer是一个用户友好的开源工具,被定义为一个跨平台的图形应用程序,用于社交网络分析和可视化。它让开发人员能够创建和修改社交网络并更改节点属性,其包括分析社会和数学属性以及有效地应用可视化布局以更好得呈现结果。对于数据分析家来说,这是一个非常有用的工具,可以与随机网络一起应用于社交数据集。利用这个工具,研究人员可以计算基本的图形属性,比如密度、直径、连通性、偏心率以及网络分析需要的其他指标。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蜀州凯哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值