数据可视化 | Data visualization
定义 | definition
这边引用百度百科上的定义,
数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
我个人的理解,就是以一种相对于原数据更直观的视觉呈现方式。通常数据图表比纯数字更具有的表达性,当然也可以更复杂的视觉形式。
概念 | concept
引用百度百科,
数据可视化技术包含以下几个基本概念:
①数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间;
②数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;
③数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据;
④数据可视化:是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。
这几个概念非常有助于我们系统地认识想要展现的数据,以便于选择恰当的表达方式。
选择 | choice
数据可视化方式非常多,可以说,只要人眼能看到的东西,都能传递一定量的数据,比如广告就是把一个商品信息浓缩在一定的片段里。
不过这种广义的可视化不是本文要讨论的重点。既然是在CSDN中的文章,那我想说的可视化就与程序、代码、数据库有关。
面对多样的数据呈现方式,选择也变得十分困难。
1.目的 | purpose
搞清楚你的数据想表达什么,要反映什么。想清楚这点,才能更好地挑选合适的表现方式。
2.数据复杂度 | data complexity
你得知道你的数据有多少,有多复杂。具体点说,比如万行以内,就算是用excel,也不难做出不错的可视化效果,而且excel相对门槛较低,自带各种图表,新手也能很快上手。
如果说数据量较大或者数据较复杂(本身维度较多),比如在存在数据库中记录达到千百万级别,而且简单地将原始的数据图表化还不足以表现出你想要的东西(需要一定的数据加工工作),那么你可能需要用到一些工具的帮助或者将数据处理之后再以一定的形式输出。
3.用户 | user
你的数据是给谁看的?观看者的水平如何?他们可能对什么形式的数据比较感兴趣?他们有什么要求?
例子 | example
例子1
先来看一张图,
按照P2选择的几个因素分析,
- 目的:目的就如这张表的标题一样,想反映出某个时间段不同城市的平均薪资分布。所以这边涉及到两个点比较和分布。
- 数据量:图中直接反映的数据量并不大,复杂度也较低。不过每个城市的平均薪资也不是直接得出的,应该是根据一定时间内统计的数据求得。
- 用户:只要是在网上看新闻的,我相信都会很容易被这种标题吸引,网民文化程度/理解水平参差不齐。
综合来讲,要呈现的数据量不大,表现方式上要能体现数据的分布、差异,并且要通俗易懂。所以表格或者直方图都是不错的选择。
例子2
前些时间的澳洲火灾效果图(这图后被证实加工过,有一定的艺术效果,而且表达的是一个月内累计发现火情的地点,与火情大小无关)。
不过抛开原图想表达的意思,在澳洲火灾后,网上传这张图确实可以让火灾给人留下深刻的印象。
例子3
科比投篮热力图,
总结
数据可视化过程在于认识数据,提炼出数据的想表达的信息。而不是将数据以图表呈现那么简单。