均值,方差,协方差以及协方差矩阵在很多算法以及实际应用中都会遇到。在图像中还广泛应用到协方差矩阵的一些性质,方差和均值只是一维随机变量的统计值,而协方差就不一样了,它可以表示多维随机变量之间的相关性信息。协方差矩阵的一个很出色的应用就是在PCA中,选择主方向。协方差矩阵的对角线的元素表示的是各个维度的方差,而非对角线上的元素表示的是各个维度之间的相关性,因此,在PCA中,我们尽量将非对角线上的元素化为0,即将矩阵对角化,选特征值较大的维度,去掉特征值较小的维度,来获得主方向,并且使主方向与其他方向的相关性尽量小。
统计学的基本概念
学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合X={X1,……Xn},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。![360截图20141009100827204.jpg 360截图20141009100827204.jpg](http://1050.edu.pinggu.com/forum/201410/09/101137smq46shi9ssosti5.jpg)
为什么需要协方差?
上面几个统计量看似已经描述的差不多了,但我们应该注意到,标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的颜值高低跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
![6bb2acd93623b42ad1164ec3.png 6bb2acd93623b42ad1164ec3.png](http://1050.edu.pinggu.com/forum/201410/09/101129lz17wzw85r885u5q.png)
![3a6f9c262fc67167d50742c3.png 3a6f9c262fc67167d50742c3.png](http://1050.edu.pinggu.com/forum/201410/09/101133h1w1dhc1d7v9db1f.png)
从协方差的定义上我们也可以看出一些显而易见的性质,如:
![360截图20141009100850579.jpg 360截图20141009100850579.jpg](http://1050.edu.pinggu.com/forum/201410/09/10113689lik9eiu5nvn77z.jpg)
上一节提到的颜值高低和受欢迎的问题是典型二维问题,而协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算
![411d964de32e117aaec3abcc.png 411d964de32e117aaec3abcc.png](http://1050.edu.pinggu.com/forum/201410/09/101135h2iwmeechekbzm26.png)
![0cb4ee8b148fe9ff0e2444c3.png 0cb4ee8b148fe9ff0e2444c3.png](http://1050.edu.pinggu.com/forum/201410/09/1011365dfdmd9y919cu15n.png)
![360截图20141009100927720.jpg 360截图20141009100927720.jpg](http://1050.edu.pinggu.com/forum/201410/09/10113691gukjjue19dos5e.jpg)
总结
理解协方差矩阵的关键就在于牢记它计算的是不同维度之间的协方差,而不是不同样本之间,拿到一个样本矩阵,我们最先要明确的就是一行是一个样本还是一个维度,心中明确这个整个计算过程就会顺流而下,这么一来就不会迷茫了~