目录
背景
在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析与因子分析就属于这类降维算法。
引入
PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法)。其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,发现更便于人类理解的特征。也可以用来削减回归分析和聚类分析中变量的数目。
特征维度约减
特征维度约减的概念
• 特征约减的目的是将高维特征向量映射到低维子空间中.
• 给定n个样本(每个样本维度为p维){x1,x2,……xn}
通过特征变换/投影矩阵实现特征空间的压缩:
为何要维度约减?
•大多数机器学习算法在高维空间中表现不够鲁棒
–Curse of Dimensionality
–查询速度与精度随着维度增加而降低.
•有价值的维度往往很少
–例如,在基因序列中对于特定疾病有价值的点位十分有限.
• 可视化: 高位数据在 2D 或 3D空间中的可视化
• 维度约减: 高效的存储与检索
• 噪声消除: 提升分类或识别精度
维度约减的应用
常规维度约减方法
• 无监督方法
– Latent Semantic Indexing (LSI): truncated SVD
– Independent Component Analysis (ICA)
– Principal Component Analysis (PCA)
– Canonical Correlation Analysis (CCA)
• 监督方法
– Linear Discriminant Analysis (LDA)
• 半监督方法
– Research topic
主成分分析
主成分分析 (PCA)基本思路
–通过协方差分析,建立高维空间到低维空间的线性映射/矩阵
–保留尽可能多的样本信息
–压缩后的数据对分类、聚类尽量不产生影响,甚至有所提升
•将原始高维向量通过投影矩阵,投射到低维空间
–这些向量称为主成分 (PCs), 具有无关性、正交的特点。重要的是这些向量的数量要远小于高维空间的维度。
主成分的代数定义和代数推导
主成分的代数定义
给定n个样本(每个样本维度为p维):
定义为样本
在第一主成分/主方向a1上的投影:
其中