均值
首先我们先介绍均值的概念,很简单
数列[1,3,4,5]的均值为(1+3+4+5)/4等于3.25
方差
还是上面的例子[1,3,4,5]。
方差则是[(1-3.25)^2+(3-3.25)^2+(4-3.25)^2+(5-3.25)^2]/3
为什么是除以3而不是除以4是因为如果数据比较多的时候,除以(数量减一)个会比较准确,相关的数学推导能在知乎上面找到答案,这里就直接用作结论
这时我们引入另外一组例子[8,8,8,8],很明显,这组数的均值是8,然后方差是0。
跟原本的数据[1,3,4,5]比起来,[8,8,8,8]各个成员的差别很小,所以我们可以得出结论方差是表示数据之间差异大小的量。
下面是方差的公式如果上面理解了,公式就没必要看了
协方差
方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集。
比如我们想研究两个同学四次数学考试成绩的差异
A同学数学考试成绩[88,89,75,85]
B同学数学考试成绩[83,88,87,78]
A同学成绩平均值:84.25
B同学成绩平均值:84
[(88-84.25)*(83-84)+(89-84.25)*(88-84)+(75-84.25)*(87-84)+(85-84.25)*(78-84)]/3
如果这个值很小,说明这两个同学在四次考试中的表现相当,我们可以得出这两个同学的学习水平相差不大,如果这个值很大,说明这两个同学在四次考试中表现相差很大,那么我们可以得出这两个学习的学习水平相差比较大
协方差矩阵
但是协方差矩阵只能描述二维矩阵,维数多了就需要计算多个协方差。假设现在有第三个同学B同学的四次考试成绩[75,88,89,90]。
A方差 AB协方差 AC协方差
AB协方差 B方差 BC协方差
AC协方差 BC协方差 C方差
这样就能在一张表里面表述清楚ABC三个同学在四次考试中表现的差异。A和B的成绩的关系,A和C的成绩的关系,B和C的成绩的关系,A,B,C他们各自考试的稳定程度
这些差异往往能相当于一些别的概念。比如一个发热源采样了这个热源100次数据,如果这100次采集到的数据的方差很大,也就是差异很大,说明这个热源很不稳定的。
如果A同学和B同学考试成绩的方差很小,C同学和A同学考试成绩方差很大。那么我们是不是能大胆地猜A和B有某种关系,别想歪了,我没说是情侣,没准人家只是在同一个数学老师家补习呢,或者人家是基友呢。但是C暗恋B,所以A和B一起学习的时间多的时候,C在吃醋学不进去所以没考好,啊,扯得有点远了。