现实世界导出都是高维度数据,甚至数据特征数都比数据量多。这个时候一些算法无法计算,在许多应用中不在适用。
降维技术是解决这个问题的很好办法,但是降维过程中应该尽可能保留数据的结构,这样才能减少运行时间并且数据真实信息尽可能多的保留。
这篇博客将主要讲解抽取主成分(principal Component Analysis,PCA),它是一种无监督方法。对于多变量问题,PCA在降维时只有很小的信息损失,保留了数据中的绝大部分变化。
在此之前我们先了解协方差矩阵这个概念
协方差矩阵:在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。
概念:
设