看了一些介绍pca的博客,但是大部分的描述和分析或者需要较高的数学基础,或者并不连续,一些关键的问题并没有阐述清楚,下面以自问自答的方式解释pca。
1,为什么协方差矩阵是一个对称矩阵?它有什么意义?
对称矩阵的原因:可以从特征归一化后的矩阵A,A乘A的转置证明;也可以从协方差矩阵的定义得知。
协方差矩阵很有意义,除了直观的反映了不同变量的方差和协方差外,也可以反映线性随机变量函数的方差。假设随机变量函数可以写成随机变量组成的行向量乘以系数列向量,那该函数的方差就等于协方差矩阵对应系数列向量的瑞丽熵。为了更好的说明这段话的含义,进行了以下实验。为了绘图和说理方便,在实验中假设样本的特征维度为2维,那么每个训练样本就代表一个二维的散点。
下面的三张图分别表示:特征归一化(减去均值后)的二维散点图、利用协方差矩阵计算不同方向的方差大小,其中粗体的红色和蓝色线分别代表最大方差方向和最小方差方向,也就是两个单位特征向量的方向、最后一张图将散点和特征向量代表的方向绘制在一张图中。