协方差入门

均值

首先我们先介绍均值的概念,很简单

数列[1,3,4,5]的均值为(1+3+4+5)/4等于3.25

 

方差

还是上面的例子[1,3,4,5]。

方差则是[(1-3.25)^2+(3-3.25)^2+(4-3.25)^2+(5-3.25)^2]/3

为什么是除以3而不是除以4是因为如果数据比较多的时候,除以(数量减一)个会比较准确,相关的数学推导能在知乎上面找到答案,这里就直接用作结论

这时我们引入另外一组例子[8,8,8,8],很明显,这组数的均值是8,然后方差是0。

跟原本的数据[1,3,4,5]比起来,[8,8,8,8]各个成员的差别很小,所以我们可以得出结论方差是表示数据之间差异大小的量。

下面是方差的公式如果上面理解了,公式就没必要看了

 

协方差

方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集。

比如我们想研究两个同学四次数学考试成绩的差异

A同学数学考试成绩[88,89,75,85]

B同学数学考试成绩[83,88,87,78]

A同学成绩平均值:84.25

B同学成绩平均值:84

[(88-84.25)*(83-84)+(89-84.25)*(88-84)+(75-84.25)*(87-84)+(85-84.25)*(78-84)]/3

如果这个值很小,说明这两个同学在四次考试中的表现相当,我们可以得出这两个同学的学习水平相差不大,如果这个值很大,说明这两个同学在四次考试中表现相差很大,那么我们可以得出这两个学习的学习水平相差比较大

 

协方差矩阵

但是协方差矩阵只能描述二维矩阵,维数多了就需要计算多个协方差。假设现在有第三个同学B同学的四次考试成绩[75,88,89,90]。

A方差                AB协方差         AC协方差

AB协方差         B方差                BC协方差

AC协方差         BC协方差          C方差

这样就能在一张表里面表述清楚ABC三个同学在四次考试中表现的差异。A和B的成绩的关系,A和C的成绩的关系,B和C的成绩的关系,A,B,C他们各自考试的稳定程度

 

这些差异往往能相当于一些别的概念。比如一个发热源采样了这个热源100次数据,如果这100次采集到的数据的方差很大,也就是差异很大,说明这个热源很不稳定的。

如果A同学和B同学考试成绩的方差很小,C同学和A同学考试成绩方差很大。那么我们是不是能大胆地猜A和B有某种关系,别想歪了,我没说是情侣,没准人家只是在同一个数学老师家补习呢,或者人家是基友呢。但是C暗恋B,所以A和B一起学习的时间多的时候,C在吃醋学不进去所以没考好,啊,扯得有点远了。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值