这里把《数据之美,一本书学会可视化设计》的摘抄分享下吧,图示上有不清晰的地方还请包容。
你真的理解数据了吗?
-
对原始数据了解得越多,打造的基础就越坚实,也就越可能制作成令人信服的数据图表。
-
好的可视化设计,需要具备统计学和设计方面的知识。
-
可视化创作是一个迭代的过程,不同的数据集迭代周期不同。
-
由于数据代表了一定的人物、地点和事物,所以除了真实的数字之外,还有重要的背景信息。
-
注意,垃圾信息的相对而言。一个图表需要剔除的东西,在另一个图表中也许是有用的。
数据引导可视化设计
-
好的图表,不只是要能快速理解,还包括它显示的内容如何,以及它是否帮助你看到了之前没有看到的东西。
-
要想把数据可视化,就必须知道它表达的是什么。数据描绘了现实的世界。与照片捕捉了瞬间的情景一样,数据是现实世界的一个快照。
-
数据和它所代表事物之间的关联既是把数据可视化的关键,也是全面分析数据的关键,同样还是深层次理解数据的关键。
-
应用:GPS追踪信心、追踪个人体重、饮食、就寝时间等相关信息
掌握可视化设计的原材料
-
数据会因其可变性和不确定性而变得复杂,但放入合适的背景信息中,就会变得容易理解了。
-
实际上,如果你不知道自己在寻找什么,那么再细的图标也会难以理解。
-
一个独立的离群值可能是需要修正或特别注意的。也许在你的体系中随着时间推移发生的变化预示有好事(或坏事)将要发生。周期性或规律性的事件可以帮助你为将来做好准备,但面对那么多的变化,它往往就失效了,这时应该退回到整体和分布的粒度来进行观察。
-
在基于不确定因素的估算下,数据误差是存在的。如果不考虑数据的真实含义,或者没有确保描述清楚,很容易产生误解。
-
当我们对某些数据模糊不清的时候,数据所依存的背景信息就发挥作用了。背景信息可以完全改变你对某一个数据集的看法,它能帮助你确定数据代表着什么以及如何解释。
-
使用数据而不了解除了数值本身之外的任何信息,就好比拿断章取义的片段作为文章的主要论点引用一样。
不了解数据,一切皆是空谈
- 你必须首先了解何人、如何、何事、何时、何地以及何因,即元数据,或者说关于数据的数据,然后才能了解数据的本质是什么。
2.1 何人(who):如“谁收集了数据”、“数据是关于谁的”
关键在于样本要在人群中平均分布,这样才可以代表整体。
2.2 如何(how):你不需要知道每种数据集背后精确的统计模型,但要小心小样本,样本小,误差率就高;你也要小心不合适的假设,比如包含不一致或不相关信息的指数或排名。
2.3 何事(what): 你要自导自己的数据时关于什么的,你应该知道围绕在数字周围的信息的是什么。
用相同的方法对待所有的数据集,用千篇一律的方法和工具处理所有数据集,这是一种严重的错误!
2.4 何时(when):你必须清楚数据是什么时候采集的。不要把旧的数据当成现在的来对付!事在编,人在变,地点也在变,数据自然也会变。
2.5 何地(where): 事情会随着时间变化,也会随着城市、州、国家的不同而变化。不要将来自少数几个国家的数据推及整个世界。
2.6 为何(why):你必须了解采集数据的原因,这样才能检查数据是否存在偏颇。
所以,首要的任务是竭尽所能了解自己的数据,你的数据分析和可视化会因此增色!
让可视化设计更为清晰
-
如何涉及数据隐私的地方,最好限制一下你所展示和观察到的信息。
-
富交互式叙事技术,即将视频、音频和文本等多种类型的媒体与可视化相结合,让用户参与交互实验。
-
流程图就是沟通中和进行决策时可用的一种直接明了的方法。你从一个状态开始,然后回答问题,转移到另一个相邻的状态,最后进入到帮助你做决定的状态。
-
所谓可视化数据,其实就是根据数值,用标尺、颜色、位置等各种视觉暗示的组合来表现数据。深色和浅色的含义不同,二维空间中右上方的点和左下方的点含义也不同。
-
可视化是从原始数据岛条形图、折线图和散点图的飞跃。
-
对于可视化,如果你知道如何解释数据以及图形元素是如何协作的,得到的结果通常比软件做的好。
-
先总览,在缩放不能干筛选,然后按需寻找细节。—《The Eyes Have It》
-
数据具有不确定性,因为每个数据点都是对某一瞬间所发生事情的快速捕捉,其它内容都是你推断的。
-
否定的事情,用下降来表示减少更合理。
别忘了,你是为读者进行可视化设计
高亮显示重点内容
-
可视化图表具有可读性,能帮助人们理解数据,并总结出数据表达的内容。在报告中嵌入图表,或给图表配上文字说明,可以详细地解释结论。然而,把可视化图形从报告中抽出来,或者断开它和提供背景信息的文本间的联系,数据可能就会失去它的含义。更糟糕的是,其他人可能会曲解你想表达的内容。
-
高亮显示能引导读者在茫茫数据中一下子就能看到重点。它既可以加深人们对已看到东西的印象,也可以让人们关注到那些应该注意的东西。时时牢记数据、视觉暗示和可读性。
-
可视化图表可以纯粹从美学的角度欣赏,但最有趣的还是数据。这就是为什么可视化要从数据开始,探索数据,然后展示结果,而不是从可视化开始,然后尽力把数据集放进去,否则,就像是用锤子砸一大把螺丝钉。
-
可视化的精髓在于理解数据中的关系和模式。
当你没有数据时,千万不要硬编出来。 -
用纸上的草图把你想做的展示出来,这不受电脑技术的限制。知道有限制是好的,但更好的是现有许多想法,然后缩减将之填入数字和时间的限制中。不要把作品限制在电脑能做的范围内。要告诉电脑你要做什么,而不是电脑告诉你能做什么。
-
因为是向别人展示数据,你要考虑到他们会怎样审视你的作品。你自己是唯一的观众时,你就只为一个人设计,只会有一种距离、一个电脑屏幕或一张纸。有其他人时,情况就不一样了。每个人都有不同的背景、不同的打印机和不同的电脑屏幕分辨率,虽然无法满足所有人的需求,但至少要在合理的范围内尝试着对尽可能多的人负责。
-
知道要展示什么之后,你可以琢磨该怎么来展示。在电脑上花费大量时间前可以先从纸笔开始,所以你得在身边放一本笔记本。想到可能有用的东西就要用草图、涂鸦和草稿记下,然后再试着用电脑转换它们。
-
数据可视化的一般过程:把所有东西整合起来,从理解数据,到探索数据,使之清晰,并适应读者。
-
你的目标是做到取出任何食材——数据,你都能明白它代表了什么。对自己的数据理解得越深,就能帮助他人理解的越深。数据可视化就是这样变得有价值的。
将可视化进行到底
可视化工具
excel、spreadsheets、tableau、
针对特定数据的工具
gephi、imagePlot、树图、TileMill、indiemapper、geocommons、ArcGis
编程工具
R语言及其扩展包(ggplot2统计学可视化框架,network可创建带有结点和边的网络图,ggmaps基于谷歌地图openstreetMap及其它地图的空间数据可视化工具,animation可制作一系列的图像并将它们串联起来做成动画,portfolio通过树图来可视化层次型数据)
js\html\css\svg(可视化库d3.js/raphael/js infovis toolkit)
processing 合适编程新手
python(matplotlib)
php
插图工具
Adobe Illustrator
典型的工作流程:用R语言创建基础图形,将图标保存为PDF文件,然后用Illustrator来修改颜色、添加标注,最后再加工一下。
数据统计
关于数据说明的问题,以及如何从文本文件和数据库的一堆数字中筛选出有用信息,统计学提供了更宽阔的视角。统计学还有助于处理稀疏和损毁的数据。