kshjsytgs

最新推荐文章于 2022-04-11 19:33:33 发布

↝↝

最新推荐文章于 2022-04-11 19:33:33 发布

阅读量653

点赞数

文章标签：可视化

本文链接：https://blog.csdn.net/qq_43668519/article/details/112311830

版权

1、概述

可视化定义

：可视化（Visualization）是利用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。
info vis ：
信息可视化是通过使用交互式可视界面进行抽象数据的通信。
sci vis ：
科学可视化专注于使用计算机图形来创建视觉图像，以帮助理解科学概念或结果的复杂的，通常是大量的数字表示形式。
数据来源：扫描设备仿真

区别：
是给定的（科学）还是选择的的（信息）
•信息可视化：如何表示
–选择，执行，评估
–巨大的可能性空间：随机游走无效
–需要设计准则
–广泛的应用领域
–离散数学：统计，图论，组合学，…

•科学：重点关注算法
–少数应用程序域 • 体积渲染（医学成像）•流量（流体动力学）
–连续数学：信号处理，流程拓扑，网格划分，…

信息可视化与科学可视化的主要区别首先是：科学可视化通常是观察基于物理的、有几何属性的数据，而信息可视化则用来显示各式各样的抽象数据；其次，科学可视化的用户多是高层次的专业工作者，而信息可视化的用户则主要是非技术人员。要为难以形象表达的抽象数据设计更加容易理解的表现形式，使信息可视化面临更大的挑战。
信息可视化的可视化目的和科学可视化不同。科学可视化的目的要求是真实地反映，要求忠实地“直译”。而信息可视化的可视化目的则是要从大量抽象数据中发现一些新的信息，它不仅仅使简单的反映，而且要求能够创造性地反映，能够把隐藏在可视化对象深处或可视化对象之间的信息挖掘出来，它是一种知识和价值创造的过程，且信息可视化主要是通过使用交互式可视化界面来进行抽象数据的交流

2、箱线图

boxplot：
将n个数从小到大排列：Q2为n个数组成的数列的中数（Median）；
当n为奇数时，中数Q2将该数列分为数量相等的两组数，每组有 (n-1)/2 个数，Q1为第一组 (n-1)/2 个数的中数，Q3为为第二组(n-1)/2个数的中数；
当n为偶数时，中数Q2将该数列分为数量相等的两组数，每组有n/2数，Q1为第一组 n/2个数的中数，Q3为为第二组 n/2 个数的中数。
IQR=Q3-Q1
在这里插入图片描述

辛普森悖论：在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。分组后其中的主要群组的影响权重更大。反过来就是样本相对较小的群组虽然可能在数据指标上表现更高，但是此时对于总体指标表现影响较小，从而形成了辛普森悖论。
为了避免辛普森的悖论导致我们得出两个相反的结论，最直接的方法是决定分组还是聚合

①一般都是遭遇比率类的问题；

②辛普森悖论和样本大小存在一定关系；

③辛普森悖论其实受“众数”影响较大，众数的比率指标往往反映了整体的比率指标情况，那么在分析决策时候，我们要选择的就是，是否要信赖分组中“众数群体”的表现，作为决策指引；

④辛普森悖论跟混淆变量有关，需要控制变量，找到实际的相关因素，拆开表面数据；

⑤方法上可以多用散点图来观察问题。

histogram：
直方图是数值数据分布的精确图形表示。这是一个连续变量（定量变量）的概率分布的估计
为了构建直方图，第一步是将值的范围分段，即将整个值的范围分成一系列间隔，然后计算每个间隔中有多少值。这些值通常被指定为连续的，不重叠的变量间隔。
间隔必须相邻，并且通常是（但不是必须的）相等的大小。

3、平行坐标散点图

平行坐标图

平行坐标图（parallel coordinates
plot）是对于具有多个属性问题的一种可视化方法，下图为平行坐标图的基本样式，数据集的一行数据在平行坐标图中用一条折线表示，纵向是属性值，横向是属性类别（用索引表示），如下图，一条数据[1
3 2 4]对应图中的折线。这条折线是根据属性的索引值和属性值画出来的。

在这里插入图片描述
限制：
1 、Hard to scale to large scale data sets!
2 、Certain clustering technique is needed + enhanced visual representation for the visualization of the obtained clusters!

散点图矩阵：
在这里插入图片描述
只能展示两个变量
画得矩阵很多

两者对应：
在这里插入图片描述

4、guide

truth：
宽高比计算
lie factor计算：
LF =Size of effect in graphic / Size of effect in data
Size of effect = Percentage change

避免失真：
最大化数据墨水比：Data-Ink Ratio =Data-Ink/Total Ink in Graphic
避免图表垃圾

Rainbow Colormap的问题：缺少秩序Lack of perceptual ordering

People segment colors into classes人们将颜色分为几类
Hues are not naturally ordered色相不是自然排列的
Different lightness emphasizes certain scalar values不同的亮度强调某些标量值
Low luminance colors (blue) hide high frequencies低亮度颜色（蓝色）隐藏高频

tufte的四个原则：
• Graphical integrity 图形完整性
• The lie factor 谎言因素
• Maximize data-ink ratio最大化数据墨水比
• Avoid harmful chart junk 避免有害的图表垃圾

5、Color in Visualization

目的（了解）：
To label标记
To measure测量
To represent and imitate代表和模仿
To enliven and decorate充满活力和装饰

人脑感知的pipeline（一条龙服务）：
1、Light 光
2、Cone Response锥体响应
3、Opponent Signals对手信号
4、Color Perception颜色感知
5、Color Appearance 颜色外观
6、Color Cognition 颜色认知

color space：
LAB由三个要素组成，一个要素是亮度（L），a 和b是两个颜色通道。a包括的颜色是从深绿色（低亮度值）到灰色（中亮度值）再到亮粉红色（高亮度值）；b是从亮蓝色（低亮度值）到灰色（中亮度值）再到黄色（高亮度值）。因此，这种颜色混合后将产生具有明亮效果的色彩。

Classing Quantitative Data：

Equal interval (arithmetic progression)
Quantiles (recommended)
Standard deviations
Clustering (Jenks’ natural breaks / 1D K-Means)
Minimize within group variance
Maximize between group variance
C

6、Perception

Design Principles：

1、Expressiveness表现力：
A set of facts is expressible in a visual language if the sentences (i.e. the visualizations) in the language express all the facts in the set of data,and only the facts in the data.表示一组数据中的所有事实，而仅表示数据中的事实

Tell the truth and nothing but the truth(don’t lie, and don’t lie by
omission)

2、Effectiveness效用：
A visualization is more effective than another visualization if the information conveyed by one visualization is more readily perceived than the information in the other visualization.如果一个可视化视图传递的信息比另一可视化视图中的信息更容易感知，则可视化视图比另一可视化视图更有效。

Use encodings that people decode better (where better = faster and/or
more accurate)

在这里插入图片描述
Graphical Perception 了解
The ability of viewers to interpret visual(graphical) encodings of information and thereby decode information in graphs.

JND了解

Gestalt Principles
格式塔原则：先“看见”一个构图的整体，然后才“看见”组成这一构图整体的各个部分。
接近性、相似性、闭合性、连续性、简单性、图形和背景。

Figure/Ground
Proximity
Similarity
Symmetry
Connectedness
Continuity
Closure
Common Fate
Transparency

7、降维

PCA：
减少数据集的维数，同时保持数据集的对方差贡献最大的特征。
m 条 n 维数据。原始数据按列组成 n 行 m 列矩阵 X；

从列的角度研究，也就是研究单个特征之间的相关性，导出协方差矩阵
1、对X均值化
2、求协方差矩阵

3、求出协方差矩阵的特征值及对应的特征向量；
4 、将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量按行排列成矩阵，取前 k 行组成矩阵 P。 Y=PX即为降维到k 维后的数据。

MDS：在新的低维空间中，所有样本相互之间的距离等于（或最大程度接近）原空间中的距离（默认欧氏距离）
输入距离矩阵D

从行的角度，研究样本之间的相似性，导出内积矩阵
(1)计算原始空间中数据点的距离矩阵。

(2)计算内积矩阵C=zTz 。

(3)对矩阵C进行特征值分解，获得特征值矩阵和特征向量矩阵。

(4)取特征值矩阵最大的前K项及其对应的特征向量。

T-SNE（非线性降维）：
在高维空间相似的数据点，映射到低维空间距离也是相似的。常规的做法是用欧式距离表示这种相似性，而SNE把这种距离关系转换为一种条件概率来表示相似性，用KL距离衡量两个分布之间的相似性，再利用随机梯度下降算法训练。T-SNE用T分布代替高斯分布，用对称SNE代替SNE。

8、graph

graph设计美学：
交叉少，面积小，宽高比不极端等

力导向图：nodelink
我们将节点想象为物理粒子，它们以随机位置初始化，但在各种力的作用下逐渐位移，直到它们到达最终位置。力由所选算法定义，并且通常会尝试将相邻节点定位为彼此靠近，但不要太靠近
具体来说，假设我们模拟了两个力：所有节点对之间的排斥力和所有相邻节点对之间的弹力。
𝐹𝑟 = 𝐾𝑟 / 𝑑2
𝐹𝑠 = 𝐾𝑠 ( 𝑑 − 𝐿)
𝐿 is the rest length of the spring

改进:
限制迭代步长，过长震荡，过短太慢

设置温度参数，从而允许节点在过程中更早地移动更大的距离，然后逐渐限制其向末端移动

检测两个节点之间的距离是否为零（通过在第20行的if语句中添加else子句），在这种情况下，在某些情况下在两个节点之间产生较小的作用力随机方向，将它们推开。没有这个，如果两个节点碰巧有相同的邻居，它们可能永远永远被彼此“卡住”

更改与两个力的强度之比相对应的单个参数。布局的最终形状将取决于𝐾𝑟/𝐾𝑠和𝐿

模拟弹簧，我们可以消除排斥力，而是模拟所有相邻节点之间长度为𝐿的弹簧，以及所有相距两个边缘的节点之间的长度为2𝐿的弹簧，并可能模拟相隔三个边缘的节点之间的长度为3𝐿的弹簧，等等。。，达到一定的限制。多余的弹簧将有助于分散网络，就像原始的排斥力一样。只要边的数量不是太高，并且弹簧没有太多，计算时间就可能比𝑂（𝑁2）小得多。

局限性：
大图画出来变成一个球，什么都看不清。

大图的问题:可读可扩展视觉复杂度

邻接矩阵表示：
•优点：不交叉。能表示额外信息如权重
•缺点：难以读图，路径不清晰，受屏幕分辨率限制。所需空间N2

Arc Diagrams（弧形图）：
将网络的节点沿直线布置（称为线性化）很有用。通过这样的布局，可以将边缘绘制为圆弧，从而生成弧形图。 •重要的是，图中的弧必须覆盖相同的角度，例如180度。这样，节点n1和n2之间的弧将向外延伸与n1和n2之间的距离成比例的距离，从而更容易消除弧的歧义

在这里插入图片描述

9、Attribute

PivotGraph：
在这里插入图片描述

10、层次数据的可视化

节点链接法：
正交布局：
在这里插入图片描述

RT算法：
目标：更明智地利用空间，最大化密度空间，最大化密度和对称性。
在这里插入图片描述

在这里插入图片描述

空间填充法：
treemaps布局算法
1、Slice And Dice（横着切一刀竖着切一刀。

draw（）{
 Change orientation from parent (horiz/vert)
 Read all files and directories at this level
 Make rectangle for each, scaled to size
 Draw rectangles using appropriate size and color
 For each directory
   Make recursive call using its rectangle as focus
}
draw（）{
从父级更改方向（水平/垂直）
 读取此级别的所有文件和目录
 为每个矩形制作矩形，按比例缩放
 使用适当的大小和颜色绘制矩形
 对于每个目录
   使用矩形作为焦点进行递归调用
 }

产生极端宽高比

2、Squarified
1：1的宽高比的好处：
最小化周长
使鼠标更容易选择
~~更容易比较~~ // 1:1和极端的都不好

11、文本可视化

pipeline（流水线，一条龙）：

1、原始数据 2、NLP处理 3、分析 4、可视化

outline两个层次：
宏观：

ThemeRiver
ThemeScape
Galaxy View

Emotions/trends/sentiments over Time：

Sparkclouds
Parallel wordclouds

微观： Word Tree

12、交互

信息可视化的两个主要部分：表示Representation 、交互Interaction

overview+detail概览+细节：
在这里插入图片描述

focus+context焦点+上下文：
焦点加上下文可视化的基本思想是使观看者能够看到详细呈现的主要关注对象，同时又获得了对周围所有可用信息或上下文的印象

三个前提：

用户同时需要概览（上下文）和详细信息（焦点）。
概述中所需的信息可能与详细信息不同。
这两种类型的信息可以在单个（动态）显示中进行组合，就像在人类视觉中一样。

区别：
一个是两个窗口表示，一个是把细节和概览混合。

动态查询：
“根据某些条件向我显示内容”根据选择标准更改显示的数据量–

linking and brushing：
与多个视图一起使用•在一个视图中选择/突出显示案例会在所有其他视图中突出显示该案例

↝↝

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
kshjsytgs

1、可视化定义：可视化（Visualization）是利用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。info vis ：信息可视化是通过使用交互式可视界面进行抽象数据的通信。sci vis ：科学可视化专注于使用计算机图形来创建视觉图像，以帮助理解科学概念或结果的复杂的，通常是大量的数字表示形式。数据来源：扫描设备仿真区别：是给定的（科学）还是选择的的（信息）•信息可视化：如何表示–选择，执行，评估–巨大的可能性空间：随
复制链接

扫一扫