对于二维数据集(X,Y)来说协方差的计算公式为:
该计算公式表明,协方差是一个数值,当X与Y如果是正相关,那么协方差c必定是大于零的,同时如果X与Y如果都比较分散,则c的值也会非常大;当X与Y如果是负相关,那么协方差c必定是小于零的,同时如果X与Y如果都比较分散,则c的绝对值也会非常大;当c的值为0,则X与Y是相互独立的。通过协方差我们可以看出两个变量间的关系与元素的大概分布情况。
但是协方差只能对二维数据进行计算,很多情况下我们的数据往往是多维的,因此需要用到协方差矩阵。
如果有一个三维的数据集(X,Y,Z),那么它的协方差矩阵为:
很明显协方差矩阵是将样本中的各个维度相互之间计算协方差。对于一个包含m个n维向量的样本(m个样本,每个样本包含n个维度的信息),其协方差矩阵为n*n。使用矩阵运算表示协方差矩阵为:
上述式子在具体运算的操作上为,首先对各个维度的数据求均值,然后单个的向量(样本,且为列向量)减去各维度的均值得到新的列向量,然后将新的列向量乘以其转置(矩阵的乘法,单个维度分别与各个维度的数据相乘)得到一个新的矩阵。然后将样本集中所有的向量运算后的矩阵进行相加,然后除以常数1/(m-1)(无偏估计),得到协方差矩阵。
协方差矩阵是一个轴对称矩阵,其对角线为各个维度的方差。该矩阵体现的是样本的各个维度之间的关系,而非个样本之间的关系。
散度矩阵又叫类内散度矩阵将协方差矩阵乘以(n-1)就得到了散度矩阵,散度矩阵是衡量样本分散程度的。