山东大学软件学院2022-2023数据可视化期末复习材料

最新推荐文章于 2023-06-11 14:59:24 发布

不会考试的creeper

最新推荐文章于 2023-06-11 14:59:24 发布

阅读量870

点赞数 1

文章标签：信息可视化

本文链接：https://blog.csdn.net/loser_creeper/article/details/131095062

版权

第一章绪论

什么是可视化

利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术

可视化的作用

版本1：

记录信息，分析推理，证实假设，交流思想

【可视化扩充了人脑的记忆，帮助人脑形象理解和分析面临任务，显著提高分析信息的效率】

版本2：

协助思考

使用感知代替认知

作为大量工作记忆的外界辅助

增强认知能力

变化盲视

当我们同时经历着多样事物发生时仅仅关注其中一样而忽视了其他样事物的发生而且不知道它们的发生，我们称这种现象为变化盲视。

它体现了人的视觉信息处理和认知的局限性。

可视化常用工具

Echarts, R, Processing, D3.js

第二章视觉感知与认知

视觉感知与认知

感知和认知

感知：关于输入信号的本质，指客观事物通过人的感觉器官在人脑中形成的直接反映

认知：关于怎么理解和解释看到的东西

视觉感知分为两个阶段：受到外部刺激接收信息阶段，解释信息阶段

视觉感知的特点：

眼睛和视觉系统的物理特性决定了人类无法看到某些事物。
视觉处理系统进行解释处理信息时，可对不完全信息发挥一定想象力。

格式塔理论

格式塔心理学认为，整体不等于部分之和，意识不等于感觉元素的集合，行为不等于反射弧的循

最基本法则（简单精炼法则）

人们在进行观察的时候，倾向于将视觉感知内容理解为常规的、简单的、相连的、对称的或有序的结构。同时，人们在获取视觉感知的时候，会倾向于将事物理解为一个整体，而不是将事物理解为组成该事物所有部分的集合。

格式塔法则又称为完图法则，主要包括：

【注：要么考察列出8个，要么举例几个，举例较好的为贴近，相似，连续，经验】

贴近原则：当视觉元素在空间距离上相距较近时，人们通常倾向于将它们归为一组。

比如：由各种艺术元素组成的字母，或者人踩在比萨斜塔上的视觉错觉等

相似原则：人们在观察事物的时候，会自然地根据事物的相似性进行感知分组。通常依据对形状、颜色、光照或其他性质的感知进行分组。

比如：在散点图中，我们往往认为相同颜色的点是同一个类别

连续原则：人们在观察事物的时候会很自然地沿着物体的边界，将不连续的物体视为连续的整体。

比如：在生活中的“手臂延长”等

闭合原则: 只要物体的形状足以表征物体本身，人们就会很容易地感知整个物体而忽视未闭合的特征

比如：在熊猫的漫画表达中，只绘制黑色部分的做法

共势原则: 如一组物体具有沿着相似的光滑路径运动的趋势或相似的排列模式，人眼会将它们识别为同一类物体

比如：如果在杂乱的字母中有一行排列整齐的语句，人可以一眼看出来

好图原则: 人眼通常会自动将一组物体按照简单、规则、有序的元素排列方式进行识别。个体识别世界的时候通常会消除复杂性和不熟悉性，并采纳最简化的形式。

比如：人在观察语句时会自动对他们进行排序，即使语句是乱序的也可以识别出来。

对称性原则 :人的意识倾向于将物体识别为沿某点或某轴对称的形状。

经验原则 ：在某些情形下视觉感知与过去的经验有关。如果两个物体看上去距离相近，或者时间间隔小，那么它们通常被识别为同一类。

比如：父母往往难以注意到孩子的较小的胖瘦情况，但亲戚可以，这是经验原则下引起的变化盲视。

结论：

应在可视化中突出变化，以减轻认知负担
可视化可以作为帮助增强记忆的工具
在不同物体间使用高对比度使得物品更容易被区分。

色彩

人眼对颜色的感知模型

色彩的物理学基础

加性混合主要应用于主动发光的物体，如液晶显示器、电视机等

减性混合主要应用于被动发光的物体，其颜色由物体表面的反射参数决定

【其余略】
色彩的视觉系统基础

【生物学，略】
色彩的神经感知基础

脑神经感知颜色的几个特性：
- 颜色恒定性
- 人脑对颜色的感知取决于该颜色与周围颜色的关系
- 人脑对亮度变化的感知要比色相变化的感知敏感
【关于颜色恒定：我们最终感知到的颜色是大脑对视觉系统传递过来的信号进行二次加工处理的结果。人类的经验知识起到了非常重要的作用，这些经验知识会使得同一物体在不同光照环境下我们感知到的颜色尽量一致（我们会认为晚上看到的树叶和白天看到的树叶都是绿色的）。】

色彩空间（色彩模型/色彩系统）

使用一组值(通常使用3个或4个值)表示颜色的方法的抽象数学模型。

例子：RGB/CMYK色彩空间；HSV/HSL色彩空间

绝对色彩空间：指不依赖于外部因素就可以准确地表示颜色的色彩空间

相对色彩空间：无法通过一组值准确地表示颜色，相同的值未必能使人得到相同的色彩感知

色盲在可视化上的解决方案：

减少受色盲影响的颜色混用
当必须要混用受影响的颜色时，可以与符号混用

视觉编码原则

可视化将数据以一定的变换和视觉编码原则映射为可视化视图。用户对可视化的感知和理解通过人的视觉通道完成。在可视化设计中，对数据进行可视化(视觉)元素映射时，需要遵循符合人类视觉感知的基本编码原则，这些原则跟数据类型紧密相关。【在通常情况下，如果违背了这些基本原则，将阻碍或误导用户对数据的理解】

视觉假象

人们通过眼睛所获得的信息被大脑处理后形成的关于事物的感知，与事物在客观世界中的物理现实并不一致，这种现象称为视觉假象

类型：尺寸错觉，细胞错觉，轮廓错觉，不可能错觉，运动错觉

例子见PPT 83，考到就画图吧

可视化编码

概念：将数据信息映射成可视化元素的技术，其通常具有表达直观、易于理解和记忆等特性

可视化编码包括：标记(图形元素)和用于控制标记的视觉特征的视觉通道

标记通常是一些几何图形元素；标记具有分类性质，因此不同的标记可用于编码不同的数据属性

视觉通道则用于控制标记的展现特征，从定量的角度描述标记在可视化图像中的呈现状态。（定量往往体现在长度，大小，亮度等）

视觉通道的表现力和有效性

表现力：视觉通道的表现力要求视觉通道准确编码数据包含的所有信息。视觉通道在对数据进行编码的时候，需要尽量忠于原始数据

有效性：通道表现力符合数据属性的重要性

衡量表现力的指标：

精确性：描述人类感知系统对于可视化的判断结果和原始数据的吻合程度
可辨性：视觉通道可以具有不同的取值范围
可分离性：一个视觉通道的使用可能会影响人们对另外视觉通道的正确感知，从而影响用对可视化结果的信息获取
视觉突出：指仅仅在很短的时间内(200～250ms)，人们可以仅仅依赖感知的前向注意直接发觉某一对象和其他所有对象的不同

第三章数据处理

数据类型

①类别型属性 ②有序型属性 ③数值型属性 ④离散型和连续型

数据特征的基本统计描述

均值、中位数、均方差、相似度和相异度

ETL

抽取（Extract）、转化（Transform）、装载（Load）

探索式数据分析

基于统计
数据可视化驱动的方法
- 原始数据绘图
- 简单统计值标绘
- 多视图协调关联

可视化数据挖掘作用

让用户参与数据挖掘过程
协助数据挖掘，比如聚类结果评价等

可视化质量指标

尺寸，视觉有效性，特征保留度

第四章数据可视化基础

数据可视化流程

数据可视化流程以数据流为主线，包括数据采集、数据处理和变换、可视化映射、用户感知

核心三要素：数据处理和变换，可视化映射，用户感知

可视化编码

可视化编码是把数据信息映射成可视化元素的技术

包含标记和用于控制标记的视觉特征的视觉通道

标记：属性到可视化元素的映射，直观代表数据性质的分类

视觉通道：数据的值到标记的视觉表现属性的映射，展现数据属性的定量信息

几种图的标记，必备/常见视觉通道：

①散点图：(a)标记：点 (b)必备的视觉通道： x,y坐标 ©常见的视觉通道：大小、色彩、形状
②折线图：(a)标记：折线 (b)必备的视觉通道：拐点的x,y坐标 ©常见的视觉通道:色彩、宽度、形态（虚实，箭头等）
③柱状图：(a)标记：矩形 (b)必备的视觉通道：矩形的高度与x坐标次序 ©常见的视觉通道：色彩、纹理、y坐标绝对位置
④箱须图:(a) 标记：矩形，点，线 (b)必备的视觉通道：矩形与点的y坐标位置与x坐标次序，矩形的高度 ©常见的视觉通道：矩形的形状

表现力：表达且仅表达数据的完整属性
- 判断标准：精确性，可辨性，可分离性，视觉突出
有效性：通道表现力符合属性的重要性

可视化设计

小面积和大面积

①感知特点：小面积区域的颜色难于感知；大面积区域中如果颜色明亮，会使得面积看上去更大。
②设计原则：在小区域中使用明亮的、饱和度高的颜色；在大区域和背景中使用低饱和度的蜡笔风格颜色。

其他结论：

表示类别型数据的颜色种类要少于8个
使用某种颜色下的亮度和饱和度变化来表现顺序型数据

可视化隐喻

视觉隐喻

①视觉隐喻：用真实的物体表达抽象概念或者额外的含义。
②视觉隐喻的作用：让内容表达更加出色，符合我们日常的认知，引起观众的思考，并增加趣味性与更多含义。

第五章统计图可视化

数据变换

聚类

作用：将一组属性（数值型\顺序型\类别型）变换为一个单一的类别型标签。

K-means

– 随机产生K个中心位置

– 将每个数据点归为距离最近的中心位置所属的类

– 根据新的类别划分重新计算中心位置

– 回到第二步，直到满足一定约束

K-means 和 K-medoids 的区别

K-medoids 中心位置必须在数据点所在位置上
K-medoids 中心位置满足“到类内所有数据点的距离之和最小”
K-medoids 可以处理“距离型”数据

统计图表

对偶尺度：在两张关联的图表中建立不同尺度的可视化方法

why？

需要重点关注某些区域
显示介质限制

常见的对偶尺度模式：聚焦式，重叠式，中断式

第六章地理数据可视化

地图的投影

地图映射主要包含以下三种类型：

等距离：即投影后任何点到原点的距离保持不变
等面积：地图上任何图形面积经主比例尺放大以后与实地上相应图形面积大小保持不变
等角度：源曲面和目标曲面（即投影前后）的任何位置的两个微分线段组成的角度投影前后保持不变

点数据可视化

点数据描述的对象是地理空间中离散的点，具有经度和纬度的坐标，但不具备大小尺寸

– 优点：简单，直观，与逻辑结构相匹配

– 缺点：对于密集数据点表述力差

【解决密集点问题：引入颜色通道，交互手段等】

线数据可视化

线数据通常指的连接两个或更多地点的线段或者路径。线数据具有长度属性，即所经过的地理距离。

FlowMap算法

Layout Adjustment：将地图上的节点映射到屏幕上，调整节点布局以避免节点间的相互干扰。

Primary Clustering：将所有节点依位置关系聚类

Rooted Clustering：在聚类结果中考虑源\汇(Source\Terminal)，并将其移动至根节点

Spatial Layout：对于二叉树中的每一个节点，选择其中权值较高的子节点，直接连接父节点a与该子节点的重心c交子节点的包围盒于b。取ab中点引出权值较低的子节点。

Edge Routing：上述操作并不保证边与边之间不相交——显然地，如果边与边（流与流）之间相交会引发图中较大的混乱，因此我们需要令这些边互相绕开。

【主要流程：布局调整，初步聚类，根聚类，空间布局，边路由】

其余不考

第七章时空数据可视化

空间数据

基本处理：数据网格（无数据），离散采样，采样重建，可视化设计

一维数据可视化

注意：数据转换和坐标轴转换

二维数据可视化

1）颜色映射法

步骤：建立颜色映射表，将标量数据转换为颜色表的索引值，选择配色方案

2）等值线提取法

移动四边形法的基本思想

逐个处理二维空间标量场的网格单元，插值计算等值线与该网格单元边的交点，根据网格单元上每个顶点与等值线的相对位置，按一定顺序连接这些交点，生成等值线

3）高度映射法

三维数据可视化

截面可视化

采用二维截面对数据取样。截面可以是任意方向的平面、曲面甚至多个曲面
间接体绘制

等值面提取与绘制
- 基于几何体采样(移动立方体算法)
直接体绘制
- 图像空间方法
  
  光线投射算法：光线投射，采样，着色，合成
- 数据空间算法
- 传输函数设计
  
  一维传输函数
  
  优点：简单、方便缺点：不能满足复杂分类需求
  
  高维传输函数
  
  优点：可以更精细的区分体数据
  
  缺点：传输函数是可视化中一个很敏感的因素，需要精心调整，高维传输函数本身难以可视化，不利于交互选择