第4章 数据可视化流程
4.1 数据可视化流程
以数据流向为主线,其主要模块包括数据采集、数据处理和变换、可视化映射和用户感知。
4.2 数据处理和数据变换
4.2.1 数据滤波
数据滤波器在信号处理中的作用是从数据信号中去除不需要的部分。
很多噪声信号的频率比有效数据信号高(例如电视中的雪花噪声),因此可以用低通滤波器有效地去除。
4.2.2 数据降维
高于三维的数据超出了可视化可显示的维度。可选择的方法有维度选择(选择重要的维度)、低维空间嵌入(降维)、维度堆叠(将多个维度摊平到低维空间)等。
数据降维的方法分为线性和非线性两类。
线性方法包括多维尺度分析(multidimensional scaling, MDS)、主成分分析(principal components analysis,PCA)和非负矩阵分解(non-negative matrix factorization,NMF)。非线性方法的代表有等距特征映射(isometric feature mapping,ISOMAP、自组织映射(self-organizing mapping,SOM)等。
4.2.3 数据采样
原始数据在将离散数据转换为连续信号进行处理或将数据的维度或粒度进行变换时,要对数据进行重新采样。
离散数据集常用插值法:分段常数插值、线性插值、多项式插值和样条插值等。
数据采样方法包括:随机采样、分层采样、聚类采样、重要性采样等。