往年题在网上有17 和19 版本的,可以自行查看。
网上资料不是很多,在这里整理一下。
鸣谢:zjk。
知识点们(考点):
1. 可视化定义、与图形学、数据挖掘的关系
- 定义:可视化是利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术。
在数据挖掘过程中,使用可视化技术,可以帮助用户更紧密地参与到整个挖掘过程中,更好地发挥人的感知和判断能力。
2. 科学可视化和信息可视化的区别
- 信息可视化与科学可视化的主要区别首先是:科学可视化通常是观察基于物理的、有几何属性的数据,而信息可视化则用来显示各式各样的抽象数据;其次,科学可视化的用户多是高层次的专业工作者,而信息可视化的用户则主要是非技术人员。要为难以形象表达的抽象数据设计更加容易理解的表现形式,使信息可视化面临更大的挑战。
信息可视化的可视化目的和科学可视化不同。科学可视化的目的要求是真实地反映,要求忠实地“直译”。而信息可视化的可视化目的则是要从大量抽象数据中发现一些新的信息,它不仅仅使简单的反映,而且要求能够创造性地反映,能够把隐藏在可视化对象深处或可视化对象之间的信息挖掘出来,它是一种知识和价值创造的过程,且信息可视化主要是通过使用交互式可视化界面来进行抽象数据的交流。
3. 辛普森悖论
这个网上有解释
4. boxplots、平行坐标系、数点图矩阵、雷达图
boxplots:最小值、上四分位数、中位数、(均值)、下四分位数、最大值
要求会画图
5. Tufte principles(塔夫特原则)
https://www.thepaper.cn/newsDetail_forward_7444732
上面这个链接也有讲到 Rainbow Color
塔夫特原则
(1)图形的完整性,或这数据的完整性
(2)Lie factor,不能失真
(3)data-ink 信息量最大化,用最小的墨水代表尽量多的数据
(4)避免有害图标垃圾
6. Graphical Integtrity,Lie factor,data-ink ratio
① 数据完整性包括两个层面。从数据集角度来讲,采集后的数据集是否包含了数据源中的所有数据点;对于单个数据样本而言,每个样本的属性是否完整。
② Lie factor,谎言系数,即图形在表达数据变化时的失真程度。
③ “数据墨水比”定义为图形中的数据墨水量除以图形中的总墨水量。通常,图形中数据墨水占比越多,那么该图形(传递数据)就更加有效,干扰观众视线的冗余信息就越少。
7. Color perception的pipeline,Rainbow color的优缺点
rainbow color的缺点:
(1)人们通常把颜色分类
(2)颜色不是自然有序的
(3)不同的明度来强调某些标量值
(4)低亮度颜色(蓝色)可能会隐藏高频值
8. Visualization design principles,Visual encoding Effectiveness ranking
原则:真实性(只有事实);使用人们能更准确的解码的编码。
9. PCA,MDS,t-SNE
这个网上资料很多,建议看网上的推导过程和原理。
① PCA(主成分分析法)
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA采用一个线性变换将数据变换到新的坐标系统,使得任何数据点投影到第一个坐标的方差最大,第二个坐标方差为第二大,依此类推。因此,PCA可以减少数据维数,并保持对方差贡献最大的特征。
优点:使得数据集更易使用;
降低算法的计算开销
去除噪声;
使得结果容易理解;
完全无参数限制。
缺点:如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高;
特征值分解有一些局限性,比如变换的矩阵必须是方阵;
在非高斯分布情况下,PCA方法得出的主元可能并不是最优的。
② MDS(多维尺度分析法)
MDS的基本原理是根据数据集的相似程度,计算各数据点在K维空间中的位置。算法的关键在于定于数据点之间的距离函数,使其尽可能逼近数据在原始高维空间的相似程度。
缺点:结果不具备旋转无关性,即两次计算获得全局最优解需要实施旋转变换后才会一致。此外,不同的初始值可能导致结果不同,即陷入局部最优。因此,使用MDS法时只能关注数据点在低位空间的相对位置,而不是绝对位置。
③ t-SNE
SNE是通过仿射变换将数据点映射到概率分布上,主要包括两个步骤:
SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。
SNE在低维空间里在构建这些点的概率分布,使得这两个概率分布之间尽可能的相似。
t-SNE是在SNE的基础上进行了以下两点改进:
使用对称SNE,简化梯度公式
低维空间使用t分布取代高斯分布
优点:改变了MDS中基于距离不变的思想,将高维映射到低维的同时,尽量保证相互之间的分布概率不变,SNE将高维和低维中的样本分布都看作高斯分布,而Tsne将低维中的坐标当做T分布,这样做的好处是为了让距离大的簇之间距离拉大,从而解决了拥挤问题。
tSNE在使用时只需要稍微调整参数,就能在不同规模下展现高维数据点的聚类。
缺点:主要用于可视化,很难用于其他目的。
t-SNE倾向于保存局部特征,对于本征维数本身就很高的数据集,是不可能完整的映射到2-3维的空间
t-SNE没有唯一最优解,且没有预估部分。
训练太慢。
10. Graph-layout force directed,matrix ordering
- 基本思想:开始把节点的位置随机初始化,我们把节点想象为物理粒子,这个粒子有引力和斥力,引力就是那些边的作用,在粒子间斥力和引力的不断作用下,粒子们从随机无序的初态不断发生位移,逐渐趋于平衡有序的终 态。同时整个物理系统的能量也在不断消耗,经过数次迭代后,粒子之间几乎不再发生相对位移,整个系统达到一种稳定平衡的状态,即能量趋于零。
优化:也是用的Barnes-Hut算法,将相似的点看作一个点,用四叉树实现,最后优化的算法复杂度为O(nlgn)
缺点:对很大的图进行力导向图算法的时候,很多点聚集在一起就像一个大雪球,可视化效果差
大图可视化的缺点:可读性,扩展性,视觉复杂性
11. Treemap layout,squarified treemap layout
这个网上也有资料 可以看这个 https://zhuanlan.zhihu.com/p/19894525
12. Text visualization : pipeline,wordle,phrase net,word tree
这几个都有相应的demo网站
phrase net : http://hint.fm/projects/phrasenet
word tree : http://hint.fm/projects/wordtree/
13. 交互方法分类,overview+detail,focus+brushing and linking
-
overview+detail:
- 多个视图展示,相同的数据,不同的分辨率,且视图之间空间分离
- 能够快速导航到要找的地方,并且不会改变细节信息
- 细节改变会立即显示在概览中
- 为查看者提供更多信息以及有关数据用例的详细信息。可以获得更多关于具体事件的信息,但是可能造成从聚集视图到个人视图的改变,缩放可能不能呈现所有的信息,或者令数据变得抽象
-
focus+context:
- 同一个视图中同时包含焦点和焦点周围的环境
- 显示细节时保持用户方向
- 数据大时有问题
- 将选定的特定事件集合信息嵌入到整体当中,视图包含局部信息和整体信息。方法减少了过滤和聚合的数据量,但是需要为呈现具体事件的视图挪出空间,可能导致整体信息的变化,造成几何上的扭曲,比如相关数据的比例关系发生变化等。