主成份分析: Principle Component Analysis (PCA)
主成份分析是一种特征降维方法,降维后的结果要保持原始数据固有结构。
原始数据结构:
- 图像数据中结构:视觉对象区域构成的空间分布
- 文本数据中结构:单词之间的(共现)相似或不相似
主成份分析中若干概念-方差与协方差
1、数据样本的方差(variance)描述了样本数据的波动程度
假设有?个数据,记为? = {?? } (? = ?, … , ?)
2、数据样本的协方差 (covariance) 衡量两个变量之间的相关度
假设有?个两维变量数据,记为(?, ?) = {(?? , ??)} (? = ?, … , ?)