第一章 绪论
什么是可视化
利用人眼的感知能力 对数据进行交互的可视表达 以增强认知的技术
可视化的作用
版本1:
记录信息,分析推理,证实假设,交流思想
【可视化扩充了人脑的记忆,帮助人脑形象理解和分析面临任务,显著提高分析信息的效率】
版本2:
协助思考
使用感知代替认知
作为大量工作记忆的外界辅助
增强认知能力
变化盲视
当我们同时经历着多样事物发生时 仅仅关注其中一样而忽视了其他样事物的发生 而且不知道它们的发生,我们称这种现象为变化盲视。
它体现了人的视觉信息处理和认知的局限性。
可视化常用工具
Echarts, R, Processing, D3.js
第二章 视觉感知与认知
视觉感知与认知
感知和认知
感知:关于输入信号的本质,指客观事物通过人的感觉器官在人脑中形成的直接反映
认知:关于怎么理解和解释看到的东西
视觉感知分为两个阶段:受到外部刺激接收信息阶段,解释信息阶段
视觉感知的特点:
- 眼睛和视觉系统的物理特性决定了人类无法看到某些事物。
- 视觉处理系统进行解释处理信息时,可对不完全信息发挥一定想象力。
格式塔理论
格式塔心理学认为,整体不等于部分之和,意识不等于感觉元素的集合,行为不等于反射弧的循
最基本法则(简单精炼法则)
人们在进行观察的时候,倾向于将视觉感知内容理解为常规的、简单的、相连的、对称的或有序的结构。同时,人们在获取视觉感知的时候,会倾向于将事物理解为一个整体,而不是将事物理解为组成该事物所有部分的集合。
格式塔法则又称为完图法则,主要包括:
【注:要么考察列出8个,要么举例几个,举例较好的为贴近,相似,连续,经验】
贴近原则:当视觉元素在空间距离上相距较近时,人们通常倾向于将它们归为一组。
比如:由各种艺术元素组成的字母,或者人踩在比萨斜塔上的视觉错觉等
相似原则:人们在观察事物的时候,会自然地根据事物的相似性进行感知分组。通常依据对形状、颜色、光照或其他性质的感知进行分组。
比如:在散点图中,我们往往认为相同颜色的点是同一个类别
连续原则:人们在观察事物的时候会很自然地沿着物体的边界,将不连续的物体视为连续的整体。
比如:在生活中的“手臂延长”等
闭合原则: 只要物体的形状足以表征物体本身,人们就会很容易地感知整个物体而忽视未闭合的特征
比如:在熊猫的漫画表达中,只绘制黑色部分的做法
共势原则: 如一组物体具有沿着相似的光滑路径运动的趋势或相似的排列模式,人眼会将它们识别为同一类物体
比如:如果在杂乱的字母中有一行排列整齐的语句,人可以一眼看出来
好图原则: 人眼通常会自动将一组物体按照简单、规则、有序的元素排列方式进行识别。个体识别世界的时候通常会消除复杂性和不熟悉性,并采纳最简化的形式。
比如:人在观察语句时会自动对他们进行排序,即使语句是乱序的也可以识别出来。
对称性原则 :人的意识倾向于将物体识别为沿某点或某轴对称的形状。
经验原则 : 在某些情形下视觉感知与过去的经验有关。如果两个物体看上去距离相近,或者时间间隔小,那么它们通常被识别为同一类。
比如:父母往往难以注意到孩子的较小的胖瘦情况,但亲戚可以,这是经验原则下引起的变化盲视。
结论:
- 应在可视化中突出变化,以减轻认知负担
- 可视化可以作为帮助增强记忆的工具
- 在不同物体间使用高对比度使得物品更容易被区分。
色彩
人眼对颜色的感知模型
-
色彩的物理学基础
加性混合主要应用于主动发光的物体,如液晶显示器、电视机等
减性混合主要应用于被动发光的物体,其颜色由物体表面的反射参数决定
【其余略】
-
色彩的视觉系统基础
【生物学,略】
-
色彩的神经感知基础
脑神经感知颜色的几个特性:
-
颜色恒定性
-
人脑对颜色的感知取决于该颜色与周围颜色的关系
-
人脑对亮度变化的感知要比色相变化的感知敏感
【关于颜色恒定:我们最终感知到的颜色是大脑对视觉系统传递过来的信号进行二次加工处理的结果。人类的经验知识起到了非常重要的作用,这些经验知识会使得同一物体在不同光照环境下我们感知到的颜色尽量一致(我们会认为晚上看到的树叶和白天看到的树叶都是绿色的)。】
-
色彩空间(色彩模型/色彩系统)
使用一组值(通常使用3个或4个值)表示颜色的方法的抽象数学模型。
例子:RGB/CMYK色彩空间;HSV/HSL色彩空间
绝对色彩空间:指不依赖于外部因素就可以准确地表示颜色的色彩空间
相对色彩空间:无法通过一组值准确地表示颜色,相同的值未必能使人得到相同的色彩感知
色盲在可视化上的解决方案:
- 减少受色盲影响的颜色混用
- 当必须要混用受影响的颜色时,可以与符号混用
视觉编码原则
可视化将数据以一定的变换和视觉编码原则映射为可视化视图。用户对可视化的感知和理解通过人的视觉通道完成。在可视化设计中,对数据进行可视化(视觉)元素映射时,需要遵循符合人类视觉感知的基本编码原则,这些原则跟数据类型紧密相关。【在通常情况下,如果违背了这些基本原则,将阻碍或误导用户对数据的理解】
视觉假象
人们通过眼睛所获得的信息被大脑处理后形成的关于事物的感知,与事物在客观世界中的物理现实并不一致,这种现象称为视觉假象
类型:尺寸错觉,细胞错觉,轮廓错觉,不可能错觉,运动错觉
例子见PPT 83,考到就画图吧
可视化编码
概念:将数据信息映射成可视化元素的技术,其通常具有表达直观、易于理解和记忆等特性
可视化编码包括:标记(图形元素)和用于控制标记的视觉特征的视觉通道
标记通常是一些几何图形元素;标记具有分类性质,因此不同的标记可用于编码不同的数据属性
视觉通道则用于控制标记的展现特征,从定量的角度描述标记在可视化图像中的呈现状态。(定量往往体现在长度,大小,亮度等)
视觉通道的表现力和有效性
表现力:视觉通道的表现力要求视觉通道准确编码数据包含的所有信息。视觉通道在对数据进行编码的时候,需要尽量忠于原始数据
有效性:通道表现力符合数据属性的重要性
衡量表现力的指标:
- 精确性:描述人类感知系统对于可视化的判断结果和原始数据的吻合程度
- 可辨性:视觉通道可以具有不同的取值范围
- 可分离性:一个视觉通道的使用可能会影响人们对另外视觉通道的正确感知,从而影响用对可视化结果的信息获取
- 视觉突出:指仅仅在很短的时间内(200~250ms),人们可以仅仅依赖感知的前向注意 直接发觉某一对象和其他所有对象的不同
第三章 数据处理
数据类型
①类别型属性 ②有序型属性 ③数值型属性 ④离散型和连续型
数据特征的基本统计描述
均值、中位数、 均方差 、相似度和相异度
ETL
抽取(Extract)、转化(Transform)、 装载(Load)
探索式数据分析
- 基于统计
- 数据可视化驱动的方法
- 原始数据绘图
- 简单统计值标绘
- 多视图协调关联
可视化数据挖掘作用
- 让用户参与数据挖掘过程
- 协助数据挖掘,比如聚类结果评价等
可视化质量指标
尺寸,视觉有效性,特征保留度
第四章 数据可视化基础
数据可视化流程
数据可视化流程以数据流为主线,包括数据采集、数据处理和变换、可视化映射、用户感知
核心三要素:数据处理和变换,可视化映射,用户感知
可视化编码
可视化编码是把数据信息映射成可视化元素的技术
包含标记和用于控制标记的视觉特征的视觉通道
标记:属性到可视化元素的映射,直观代表数据性质的分类
视觉通道:数据的值到标记的视觉表现属性的映射,展现数据属性的定量信息
几种图的标记,必备/常见视觉通道:
①散点图:(a)标记:点 (b)必备的视觉通道: x,y坐标 ©常见的视觉通道: 大小、色彩、形状
②折线图:(a)标记:折线 (b)必备的视觉通道:拐点的x,y坐标 ©常见的视觉通道:色彩、宽度、形态(虚实,箭头等)
③柱状图:(a)标记: 矩形 (b)必备的视觉通道: 矩形的高度与x坐标次序 ©常见的视觉通道:色彩、纹理、y坐标绝对位置
④箱须图:(a) 标记:矩形,点,线 (b)必备的视觉通道:矩形与点的y坐标位置与x坐标次序,矩形的高度 ©常见的视觉通道:矩形的形状
- 表现力:表达且仅表达数据的完整属性
- 判断标准:精确性,可辨性,可分离性,视觉突出
- 有效性:通道表现力符合属性的重要性
可视化设计
小面积和大面积
①感知特点:小面积区域的颜色难于感知 ;大面积区域中如果颜色明亮,会使得面积看上去更大。
②设计原则:在小区域中使用明亮的、饱和度高的颜色;在大区域和背景中使用低饱和度的蜡笔风格颜色。
其他结论:
- 表示类别型数据的颜色种类要少于8个
- 使用某种颜色下的亮度和饱和度变化来表现顺序型数据
可视化隐喻
视觉隐喻
①视觉隐喻:用真实的物体表达抽象概念或者额外的含义 。
②视觉隐喻的作用:让内容表达更加出色,符合我们日常的认知,引起观众的思考,并增加趣味性与更多含义。
第五章 统计图可视化
数据变换
聚类
作用:将一组属性(数值型\顺序型\类别型)变换为一个单一的类别型标签。
K-means
– 随机产生K个中心位置
– 将每个数据点归为距离最近的中心位置所属的类
– 根据新的类别划分重新计算中心位置
– 回到第二步,直到满足一定约束
K-means 和 K-medoids 的区别
- K-medoids 中心位置必须在数据点所在位置上
- K-medoids 中心位置满足“到类内所有数据点的距离之和最小”
- K-medoids 可以处理“距离型”数据
统计图表
对偶尺度:在两张关联的图表中建立不同尺度的可视化方法
why?
- 需要重点关注某些区域
- 显示介质限制
常见的对偶尺度模式:聚焦式,重叠式,中断式
第六章 地理数据可视化
地图的投影
地图映射主要包含以下三种类型:
- 等距离:即投影后任何点到原点的距离保持不变
- 等面积:地图上任何图形面积经主比例尺放大以后与实地上相应图形面积大小保持不变
- 等角度:源曲面和目标曲面(即投影前后)的任何位置的两个微分线段组成的角度投影前后保持不变
点数据可视化
点数据描述的对象是地理空间中离散的点,具有经度和纬度的坐标,但不具备大小尺寸
– 优点:简单,直观,与逻辑结构相匹配
– 缺点:对于密集数据点表述力差
【解决密集点问题:引入颜色通道,交互手段等】
线数据可视化
线数据通常指的连接两个或更多地点的线段或者路径。线数据具有长度属性,即所经过的地理距离。
FlowMap算法
Layout Adjustment:将地图上的节点映射到屏幕上,调整节点布局以避免节点间的相互干扰。
Primary Clustering:将所有节点依位置关系聚类
Rooted Clustering:在聚类结果中考虑源\汇(Source\Terminal),并将其移动至根节点
Spatial Layout:对于二叉树中的每一个节点,选择其中权值较高的子节点,直接连接父节点a与该子节点的重心c交子节点的包围盒于b。取ab中点引出权值较低的子节点。
Edge Routing:上述操作并不保证边与边之间不相交——显然地,如果边与边(流与流)之间相交会引发图中较大的混乱,因此我们需要令这些边互相绕开。
【主要流程:布局调整,初步聚类,根聚类,空间布局,边路由】
其余不考
第七章 时空数据可视化
空间数据
基本处理:数据网格(无数据),离散采样,采样重建,可视化设计
一维数据可视化
注意:数据转换和坐标轴转换
二维数据可视化
1)颜色映射法
步骤:建立颜色映射表,将标量数据转换为颜色表的索引值,选择配色方案
2)等值线提取法
移动四边形法的基本思想
逐个处理二维空间标量场的网格单元,插值计算等值线与该网格单元边的交点,根据网格单元上每个顶点与等值线的相对位置,按一定顺序连接这些交点,生成等值线
3)高度映射法
三维数据可视化
-
截面可视化
采用二维截面对数据取样。截面可以是任意方向的平面、曲面甚至多个曲面
-
间接体绘制
等值面提取与绘制
- 基于几何体采样(移动立方体算法)
-
直接体绘制
-
图像空间方法
光线投射算法:光线投射,采样,着色,合成
-
数据空间算法
-
传输函数设计
一维传输函数
优点:简单、方便 缺点:不能满足复杂分类需求
高维传输函数
优点:可以更精细的区分体数据
缺点:传输函数是可视化中一个很敏感的因素,需要精心调整,高维传输函数本身难以可视化,不利于交互选择
-
第九章 层次数据可视化
大数据可视化交互设计
动态改变视图,多视图关联,视图内容约减,焦点+上下文
节点-链接(Node-link)
将单个个体绘制成一个节点,节点之间的连线表示个体之间的层次关系
核心问题:如何在屏幕上放置节点;如何绘制节点及节点之间的链接关系
目的:
- 节点位置的空间顺序和层次关系一致
- 减少连线之间的交叉,过多的连线交叉会干扰用户对关系的解读
- 减少连线的总长度,连线越长越容易造成解读错误
- 可视化应该有一个合适的长宽比,以便优化空间的利用
正交布局
有电路图,缩进图,聚类树
Reingold-Tilford Algorithm
- 自底向上递归计算
- 对于每个父节点,确保子树已完全绘制
- 尽可能紧致地包装子树
- 将父节点放在子树的中心位置
优点:与视觉识别习惯吻合,非常直观
缺点:对于大型的层次结构,特别是广度比较大的层次结构,这样的布局会导致不合理的长宽比
径向布局
更加合理地利用空间
圆锥树(三维树)
结合了径向布局和正交布局两种思想
优点:
- 三维空间来扩展可用显示空间,空间利用更加充分
- 三维动画来降低认知成本,可以使用平滑的动画让用户捕捉到变化
- 好看
缺点:
- 难以对付很大的树,3D情景下难以避免节点间相互重叠
- 三维交互还是一个挑战,需要3D渲染,交互情景下难以在移动端保证性能
空间填充(Space-filling)
用空间中的分块区域表示数据中的个体,并用外层区域对内层区域的包围表示彼此之间的层次关系
树图布局算法
- 递归地细分屏幕空间成矩形块
- 整个矩形表示层次化数据中的最高层级
- 较低一层的节点根据各自具有的权重的比例,划分最高层节点矩形的面积
- 它们的子节点再递归地划分各自的父节点,如此往复直到所有层次都划分完毕
Voronoi树图
为了克服矩形空间长宽比的困扰,人们提出了Voronoi树图,提出采用任意多边形来取代矩形空间
二者优点:
-
节点-链接法能清晰、直观地显示层次结构
-
空间填充法能有效地利用空间,从而支持大规模的层次数据
第十章 网络数据可视化
网络关系数据的可视化
最常用的网络数据的布局:节点—链接法,相邻矩阵法
节点—链接法
分层显示/Sugiyama
- 创建图的层次
- 添加伪节点解决过长的边
- 减少交叉
- 决定各节点的最终坐标
- 安排各条边
优点:
- 美观、可读性好、自然的自上而下排列
- 算法相对快速
- 容易实现
缺点:不适用于显示不具有原生自顶向下顺序的图
力导向布局【2022考察】
- 从随机生成的节点排列开始循环 :
- 为每一对节点计算排斥力
- 为每一条边计算引力
- 为每个节点计算合力
- 沿着合力的方向更新各个节点的位置
- 当节点的排列“足够好”时结束更新
优点:
-
非常灵活,对各种类型的图都能生成较好的显示效果
-
相对容易实现
-
有现成软件包和算法可用
缺点:
- 往往是局部最优的
- 初始位置对结果影像很大
- 算法复杂度比较大
节点链接法优缺点:
优点:
- 直观反映网络关系,能够表现图的总体结构、簇、路径
- 灵活,有许多变种
缺点:
- 复杂性高
- 不适合密集图
第十一章 文本数据可视化
文本数据可视化流程:
原始文本——文本信息挖掘——视图绘制——人机交互
文本特征抽取:关键词,词频,主题分布
向量空间模型
词袋模型:用来提取词汇级文本信息。在过滤掉停词等对文本内容影响较弱的词之后,词袋模型将一个文档的内容总结为在由关键词组成的集合上的加权分布向量
在基于词袋模型计算的一维词频向量中,每个维度代表一个单词;每个维度的值等于单词在文本中出现的统计信息,可引申为重要性;单词间没有顺序关系
TF-IDF
Tf(w)是词 w在文档中出现的次数, Df(w) 是文档集中包含词的文档数目
可以体现 代表词w对于某个文档的相对重要性