假设我们有这样的两组数据:
以Data1为横坐标,Data2为纵坐标,在二维坐标轴上表示出来,
D1的平均值为5.83,D2的平均值为3.63。我们将所有数据减去对应的均值,完成了数据中心化。
原始数据为二维的,我们要将数据降成一维的,并尽可能保留较多的原始信息。因此我们需要找到一个方向,使这些点在这个方向上的投影分散得最开。
提到分散度,我们会想到方差
计算得 ,
协方差公式为
计算得
实际上,我们可以用一个协方差矩阵表示这些结果,其中A表示将中心移到原点后的数据矩阵
注释:
接下来,我们要把它引导到平面的某一单位向量上。这个单位向量命名为 ,值为
所以某个点 的坐标向量和该单位向量的内积,即这个点的向量在单位向量上的投影,记为S,
那么,最大分散化就是在某方向上的投影至中心距离方差最大:
接下来,我们的任务是使用拉格朗日乘子法求 的最值 :
求偏导,令偏导=0,
( 是 的特征向量, 是 的特征值 )
,解得 和
时,代入到 ,得到 特征向量 [0.94,0.34];
注释:
时,得到特征向量 [0.34,-0.94],即为图中蓝线的方向
几何意义:假设点 在的坐标系的坐标为 (4.17,2.37),它在上投影长度为4.72,在上投影长度为0.81,那么它既可以理解为由 4.17个和2.37个组成的,也可以理解为由4.72个和0.81个组成的。
把 , (是单位向量) 代入最大分散化的公式 中,
所以某一主成分方向上投影的方差即为 ,假设我们要求 个主成分,只需要找到前 大的 ,并计算其特征向量。
我们也可以计算各个主成分涵盖了多少的信息,
计算可知,我们只需要保留主成分1就可以保留绝大多数信息。于是我们成功地将原有的二维数据信息转换成了这些点在主成分1方向上的投影的一维数据。