机器学习中的数学(3)——协方差矩阵和散布（散度）矩阵

最新推荐文章于 2024-06-22 18:43:34 发布

Lavi_qq_2910138025

最新推荐文章于 2024-06-22 18:43:34 发布

阅读量1.5w

点赞数 18

分类专栏：机器学习文章标签：机器学习统计学协方差矩阵散布矩阵散度矩阵

机器学习专栏收录该内容

37 篇文章 34 订阅

订阅专栏

1、引言

在学习机器学习算法和阅读相关论文的时候，将经常会看到协方差矩阵和散布矩阵的身影，这说明它们在机器学习中具有很重要的作用，究竟有什么样的作用，下面我们就做简要的介绍和分析。

2、统计学上的基本概念

学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合 X={X1,…,Xn} ，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。

很显然，均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0，8，12，20]和[8，9，11，12]，两个集合的均值都是10，但显然两个集合差别是很大的，计算两者的标准差，前者是8.3，后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n，是因为这样能使我们以较小的样本集更好的逼近总体的标准差，即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

3、为什么需要协方差

上面几个统计量看似已经描述的差不多了，但我们应该注意到，标准差和方差一般是用来描述一维数据的，但现实生活我们常常遇到含有多维数据的数据集，最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个男孩子的猥琐程度跟他受女孩子欢迎程度是否存在一些联系啊，嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量，我们可以仿照方差的定义：

v a r (X) = \sum n i = 1 ( X i - X ¯ ) ( X i - X ¯ ) n - 1

来度量各个维度偏离其均值的程度，协方差可以这么来定义：

c o v (X, Y) = \sum n i = 1 ( X i - X ¯ ) ( Y i - Y ¯ ) n - 1

协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的(从协方差可以引出“相关系数”的定义)，也就是说一个人越猥琐就越受女孩子欢迎，嘿嘿，那必须的~结果为负值就说明负相关的，越猥琐女孩子越讨厌，可能吗？如果为0，也是就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质，如：

1. c o v (X, X) = v a r (X)

2. c o v (X, Y) = c o v (Y, X)

4、相关系数

相关系数的公式

就是用X，Y的协方差除以X的标准差和Y的标准差。

所以相关系数也可以看做一种协方差，一种剔除了两个变量量纲影响，标准化后的特殊的协方差。既然是一种特殊的协方差，那它:

1、也可以反映连个变量变化时是同向还是反向，如果同向变化就为正反向变化就为负。

2、由于是标准化后的协方差，因此它有一些更重要的特性，它消除了两个变量变化幅度的影响，而只是单纯地反映两个变量每单位变化时的相似程度。

3、相关系数的取值范围是-1 到 1。相关系数为1 说明两个变量为正相关，且为线性关系，即X增大一倍，Y也会增大一倍，X减小一倍，Y也会减小一倍；相关系数为0，说明两个变量相互独立，不存在相关关系。相关系数为-1时，说明两个变量为负相关，且为线性关系，即X增大一倍，Y也会减小一倍，X减小一倍，Y会增大一倍。

4、什么是协方差矩阵

简单的说协方差多了就是协方差矩阵。上一节提到的猥琐和受欢迎的问题是典型二维问题，而协方差也只能处理二维问题，那维数多了自然就需要计算多个协方差，比如n维的数据集就需要计算 n!(n−2)!∗2 个协方差，那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义：

C n \times n = (c i, j, c i, j = c o v (D i m i, D i m j))

这个定义还是很容易理解的，我们可以举一个简单的三维的例子，假设数据集有 {x,y,z}

三个维度，则协方差矩阵为

可见，协方差矩阵是一个对称的矩阵，而且对角线是各个维度上的方差。

5、Matlab协方差实战(定义法)

上面涉及的内容都比较容易，协方差矩阵似乎也很简单，但实战起来就很容易让人迷茫了。必须要明确一点，### 协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的。这个我将结合下面的例子说明，以下的演示将使用Matlab，为了说明计算原理，不直接调用Matlab的cov函数。

首先，随机产生一个10*3维的整数矩阵作为样本集，10为样本的个数，3为样本的维数。

MySample = fix(rand(10,3)*50)

根据公式，计算协方差需要计算均值，那是按行计算均值还是按列呢，我一开始就老是困扰这个问题。前面我们也特别强调了，协方差矩阵是计算不同维度间的协方差，要时刻牢记这一点。样本矩阵的每行是一个样本，每列为一个维度，所以我们要### 按列计算均值。为了描述方便，我们先将三个维度的数据分别赋值：

dim1 = MySample(:,1);
dim2 = MySample(:,2);
dim3 = MySample(:,3);

计算dim1与dim2，dim1与dim3，dim2与dim3的协方差：

sum( (dim1-mean(dim1)) .* (dim2-mean(dim2)) ) / ( size(MySample,1)-1 ) % 得到  74.5333
sum( (dim1-mean(dim1)) .* (dim3-mean(dim3)) ) / ( size(MySample,1)-1 ) % 得到  -10.0889
sum( (dim2-mean(dim2)) .* (dim3-mean(dim3)) ) / ( size(MySample,1)-1 ) % 得到  -106.4000

搞清楚了这个后面就容易多了，协方差矩阵的对角线就是各个维度上的方差，下面我们依次计算：

std(dim1)^2 % 得到   108.3222
std(dim2)^2 % 得到   260.6222
std(dim3)^2 % 得到   94.1778

这样，我们就得到了计算协方差矩阵所需要的所有数据，调用Matlab自带的cov函数进行验证：

cov(MySample)

把我们计算的数据对号入座，是不是一模一样？

6、协方差的另一种计算方法

今天突然发现，原来协方差矩阵还可以这样计算，先让样本矩阵中心化，即每一维度减去该维度的均值，使每一维度上的均值为0，然后直接用新的到的样本矩阵乘上它的转置，然后除以(N-1)即可。其实这种方法也是由前面的公式通道而来，只不过理解起来不是很直观，但在抽象的公式推导时还是很常用的！同样给出Matlab代码实现：

X = MySample - repmat(mean(MySample),10,1);    % 中心化样本矩阵，使各维度均值为0
C = (X'*X)./(size(X,1)-1);

下面是对该部分用到的Matlab函数的见到介绍，对Matlab比较熟悉的同学可以直接跳过该部分。

（1）fix（A）向0靠拢取整

（2）mean（A，dim）在不同的维度上，求矩阵的特征值，dim默认是1

（3）repmat（A，m，n）或者repmat（A，[m,n]），将A平铺复制mxn次，平铺m行，每行平铺n个A

MySample = fix(rand(10,3)*50)

MeanSampleDim1 =  mean(MySample)
MeanSampleDim2 =  mean(MySample)

PatSample = repmat(MeanSampleDim1,10,2)

7、散布矩阵

散布矩阵又称散度矩阵，将协方差矩阵乘以系数（n-1）就得到了散布矩阵，所有散布矩阵与协方差矩阵矩阵的作用是一样的，理解了协方差矩阵也就理解了散布矩阵，它们只有一个系数只差而已。

8、总结

理解协方差矩阵的关键就在于牢记它计算的是不同维度之间的协方差，而不是不同样本之间，拿到一个样本矩阵，我们最先要明确的就是一行是一个样本还是一个维度，心中明确这个整个计算过程就会顺流而下，这么一来就不会迷茫了~

原文链接：浅谈协方差矩阵 http://pinkyjie.com/2010/08/31/covariance/ 感谢原博主

关于协方差和相关系数的通俗解释：https://www.zhihu.com/question/20852004

Lavi_qq_2910138025

关注

18
点赞
踩
65

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的数学(3)——协方差矩阵和散布（散度）矩阵

1、引言在学习机器学习算法和阅读相关论文的时候，将经常会看到协方差矩阵和散布矩阵的身影，这说明它们在机器学习中具有很重要的作用，究竟有什么样的作用，下面我们就做简要的介绍和分析。2、统计学上的基本概念学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合X={X1,…,Xn}，依次给出这些概念的公式描述，这些高中学过数
复制链接

扫一扫

专栏目录