文章翻译自pca_brief_introduction.pdf的第二节,原始链接是这里。
今天有需要查一查PCA是个什么意思,看了几个资料,这个讲的最简单的,易懂。 吐槽下很多中文博客,说的完全不明白 。翻译下理论简述。
PCA 主要成分分析 是使用统计学的技术对高维数据进行模式查找的有用方法。这个方法,首先我们尝试着去寻找给定数据的方差,然后将观察到的模式用更小维度的数据表示。例如给定一个矩阵A,他的协方差矩阵可以使用 AAT 来求出。我们知道,对于任何一个矩阵,他的空间中的特征向量仅仅在同样的方向上缩放。也就是说,如果我们能够找到协方差矩阵,我们就能够知道这个矩阵在特定方向上数据的大小。与特征向量对应的特征值可以让我们知道这个矩阵在这个方向上的数量级。也就是说,原始图像中的任何一个向量可以被特征向量的线性组合来表示。
如果我们忽略一些方向上的小量级的数据,在使用特征向量重新构建这个矩阵。这个新的矩阵和原始矩阵会非常近似,但是数据的维度会明显降低。这些剩下的特征向量,叫做这个矩阵的主要成分。
----
欢迎关注我的新浪微博@TJUReyoung, 欢迎访问我的博客。