协方差
协方差矩阵的解释:A geometric interpretation of the covariance matrix
这里通过探索线性变换与所得数据协方差之间的关系,提供协方差矩阵的直观几何解释。大多数教科书基于协方差矩阵的概念来解释数据的形状。相反,这里采用向后的方法,并根据数据的形状解释协方差矩阵的概念。
使用下图来显示标准差,作为方差的平方根,提供了数据在特征空间中分布的量度。
图1 高斯密度函数。对于正态分布的数据,68% 的样本落在均值加减标准差所定义的区间内。
我们表明,可以通过以下方式获得样本方差的无偏估计:
然而,方差只能用来解释数据在平行于特征空间轴的方向上的分布。考虑图 2 所示的二维特征空间:
图2 二维数据分布
对于这些数据,我们可以计算x 方向的方差和y方向的方差。然而,数据的水平分布和垂直分布并不能解释明显的对角相关性。上图清楚地表明,平均而言,如果数据点的 x 值增加,则y值也会增加,从而产生正相关。这种相关性可以通过将方差的概念扩展到所谓的数据“协方差”来捕捉:
对于二维数据,我们因此获得为一个矩阵,称为协方差矩阵:
如果 x 与 y 正相关,则 y 也与 x 正相关。换句话说,我们可以说
因此,协方差矩阵始终是一个对称矩阵,其方差在对角线上,协方差在对角线外。
下图说明了数据的整体形状如何定义协方差矩阵:
图3.协方差矩阵定义了数据的形状。对角分布由协方差捕获,而轴对齐分布由方差捕获。
协方差矩阵的特征分解
在下一节中,我们将讨论如何将协方差矩阵解释为将白色数据转换为我们观察到的数据的线性算子。然而,在深入研究技术细节之前,重要的是要直观地理解特征向量和特征值如何唯一地定义协方差矩阵,从而定义我们数据的形状。
协方差矩阵定义了数据的散布(方差)和方向(协方差)。所以,如果我们想用一个向量及其大小来表示协方差矩阵,我们应该简单地尝试找到指向数据最大传播方向的向量,并且其大小等于这个传播(方差)方向。
如果我们把这个向量定义为,那么我们的数据D在这个向量上的投影就是
,那么这个数据的方差就是
,由于我们正在寻找
指向最大方差方向的向量,因此我们应该选择它的分量,使得投影数据
的协方差矩阵尽可能大。可以表示为所谓的瑞利商,这种瑞利商的最大值是通过设置
等于矩阵
的最大特征向量来获得的。
也就是说,协方差矩阵的最大特征向量总是指向数据方差最大的方向,这个向量的大小等于对应的特征值。第二大特征向量始终与最大特征向量正交,并指向数据的第二大传播方向。
为特征向量,
为对应的特征值。如果我们数据的协方差矩阵是对角矩阵,协方差为零,那么这意味着方差必须等于特征值。 下图说明了这一点,其中特征向量以绿色和洋红色显示并且特征值明显等于协方差矩阵的方差分量。
图4.协方差矩阵
但是,如果协方差矩阵不是对角矩阵,使得协方差不为零,那么情况就稍微复杂一些。特征值仍然代表数据最大散布方向的方差幅度,协方差矩阵的方差分量仍然代表x轴和y轴方向的方差幅度。但由于数据不是轴对齐的,这些值不再相同,如图 5 所示。
图5.协方差矩阵
通过将上述的两张图进行比较,可以清楚地看出,特征值表示数据沿特征向量方向的方差,而协方差矩阵的方差分量表示沿轴的分布。如果没有协方差,则两个值相等。箭头的长度表示特征值大小,也表示该方向的方差。
协方差矩阵作为线性变换
图 .具有单位协方差矩阵的数据称为白色数据
设图 6 所示的数据为 ,则图3所示的每一个例子都可以通过线性变换得到
,其中
,分别表示旋转矩阵和缩放矩阵。
和
分别表示x,y方向的比例因子。在接下来的段落中,我们将讨论协方差矩阵
和线性变换矩阵之间的关系。
让我们从未缩放(比例等于 1)和未旋转的数据开始。在统计学中,这通常被称为“白色数据”,因为它的样本来自标准正态分布,因此对应于白色(不相关)噪声:
图 7.白色数据是具有单位协方差矩阵的数据
这个“白色”数据的协方差矩阵等于单位矩阵,使得方差和标准差等于 1,协方差等于 0:
现在让我们在 x 方向上将数据缩放 4 倍:
数据现在如下所示:
图 8. x 方向的变化导致水平缩放
现在新的协方差矩阵为
正如我们之前看到的,我们可以用它的特征向量和特征值来表示协方差矩阵:
为
的特征向量组成的矩阵,其列向量为对应的特征向量,
为对角阵,非0元素对应的特征值。这意味着我们可以将协方差矩阵表示为其特征向量和特征值的函数:
上式称为协方差矩阵的特征分解。可以使用奇异值分解算法获得。特征向量表示数据最大方差的方向,而特征值表示这些方向上的方差大小。也就是说, 表示旋转矩阵,而
表示缩放矩阵。因此,协方差矩阵可以进一步分解为:
其中表示旋转矩阵,
为缩放矩阵。在上式中,我们定义了一个线性变换
。
S为对角缩放矩阵,,此外,因为R为正交阵,
,因此
,协方差矩阵可以写为
换句话说,如果我们将 定义的线性变换应用于图 7 所示的原始白色数据,即有
图 10.协方差矩阵表示原始数据的线性变换
图 10 中的彩色箭头表示特征向量。最大特征向量,即对应特征值最大的特征向量,总是指向数据方差最大的方向,从而定义了它的方向。由于旋转矩阵的正交性,后续特征向量总是与最大特征向量正交。
此外,由于 R 是正交矩阵,R^{-1} = R^T。
事实上,数据 D 不需要是高斯的理论可以成立。然而,谈论协方差矩阵在高度非高斯的数据中通常没有多大意义。