数据可视化基础
可视化不是一个算法,而是一个流程。
数据可视化流程
(1)数据采集
(2)数据处理和变换
(3)可视化映射
(4)用户感知
数据处理与数据交换
数据变换的目的
更好地解决特定问题
提供更多的可视化设计选择
数据降维
主元分析(Principal Components Analysis,PCA)
多尺度标记(Multidimensional Scaling,MDS)
自组织网络(Self-Organizing Map,SOM)
可视化编码
视觉通道——颜色
·(灰度)值可被认为是有序的
·可用于编码数值型数据
·色调通常认为是无序的,可用于编码不同维度的值
数据可视化的优先级
(这里有问题,之后更改)
位置、长度、角度/斜度、面积、体积、颜色、密度
源于统计图表的可视化
一、单变量数据
(1)数据轨迹图。 一种以x坐标显示自变量, 坐标显示因变量的标准的单变量数据呈现方法。可直观呈现数据分布、 离群值、对均值的偏移等信息。
(2) 抖动图。将数据点布局于一维轴时,可能产生部分数据重合。
(3) 核密度估计图。核密度估计(KDE) 是一种估计空间数据点密度的图。它将离散的数据点重建为连续的图,其原理是将平滑的单峰核函数与每个离散数据点的值进行卷积,获得光滑的反映数据点密度的连续分布。
(4)柱状图。由一系列高度不等的纵向长方形条纹组成,表示不同条件下数据的分布情况的统计报告图。长方形条纹的长度表示相应变量的数量、价值等,常用于较小的数据集分析。条状图亦可横向排列,也可以出现负值。有时将同一变 量的几个不同含义数据堆叠一起,形成堆叠图。
(5)直方图。对数据集的某个数据属性的频率统计图。单变量数据的取值范围映射到X轴,并分割成多个子区间,每个子区间用一个高度正比于落在该区间的数据点的个数的长方块表示。直方图可以直观地呈现数据的分布、离群值和数据分布模态。长方块宽度的选择合适与否决定了直方图的质量,宽度过大会丢失许多数据集的详细信息。宽度过小会导致大部分矩形只包含少量数据(甚至没有),导致分布的形状非常不明显。直方图主要用于描述数据的分布状况,常见的分布有正常型、折齿型、缓坡型、孤岛型、双峰型和峭壁型。
(6)盒须图。一种用于显示一组数据分散情况资料的统计图, 由一个盒子和两边各一条线组成, 提供了一种用5个点对数据集做简单总结的方式。盒子中间和上下边缘分别对应数据的中位线、上四分位数和下四分位数。上下两条线表示数据中除去异常值外的最大最小值。盒须图使读者能直观明了地察觉数据中的异常值,还可以通过同时绘制多个数据集的盒须图比较它们的统计性态。
二、双变量数据
处理双变量数据集时主要 关心两个变量之间是否存在某种关系及这种关系的具体形式。
(1)散点图:一种以笛卡儿坐标系中点的形式表示二维数据的方法。每个点的横、纵坐标代表该数据在该坐标轴所表示维度上的属性值大小。散点图在一定程度上表达了两个变量之间的关系。散点图的不足是难以从图上获得每个数据点的信息,但结合图标等手段可以在散点图上展示部分信息。
(2)对数图与半对数图。描述两个变量之间的关系最常用的方式是将个变量随另个变量变化的过程绘制在直角坐标系中。为了更加方便地观察以指数速度变化的变量之间的关系,不再描述原始数据,而是描述其对数值。
三、多变量数据
(1)等值线图。利用相等数值的数据点的连线来表示数据的连续分布和变化规律。等值线图中的曲线是空间中具有相同数值(高度、深度等)的数据点在平面上的投影。典型的等值线图有平面地图上的地形等高线、等温线、等湿线等。
(2)热力图。热力图使用颜色来表达位置相关的维数值数据大小。 这些数据常以矩阵或方格形式整齐排列,或在地图上按一定的位置关系排列, 由每个数据点的颜色反映数值的大小。
(3)颜色映射图。一种在三变量数据可视化中应用较广的技术,可应用于不同的任务和不同类型的数据集,主要用于强调某些肉眼难以区别的数据区域。
四、时序数据
走势图:是一种紧凑 简洁的时序数据趋势表达方式,常以折线图为基础,大小与文本相伤。往往直接嵌人在文本或表格中,由于尺寸限制走势图无法表达太多的细节信息。
(*)可视化目标
• 表达力强
- 真实全面地反映数据的内容
• 有效性强 - 用户对可视化显示信息的理解效率
•简洁
•易用
•美感
可视化设计步骤
数据的筛选
确定数据到图形元素(即标记)和视觉通道的映射
视图的选择与用户交互控制的设计
数据筛选
• 设计者必须决定可视化所能处理的数据的信息量避免
- 可视化展示了过少的数据信息
- 设计者试图表达和传递过多的信息
• 解决方案
- 数据的筛选操作—让用户选择当前显示的部分数据
- 多视图或多显示器—根据数据的相关性分别显示
视图交互
(1)滚动与缩放
(2)颜色映射的控制
(3)数据映射方式的控制
(4)数据缩放和裁剪工具
(5)LOD(细节层次)控制
美学原则 聚焦、平衡、简单
视觉隐喻:隐喻(metaphor)的一种在视觉上将目标物体/形象与另一领域的(源)物体进行相似性对比,常用于广告、平面设计等