协方差(Cov)

简单的说,协方差就是描述两个随机变量之间的相关性。

随机变量的相关性分为三种:正相关、负相关、不相关。

考察身高和体重的相关性

以身高为横坐标,体重为纵坐标建立直角坐标系,将采集的样本点画到直角坐标系上。

将第一个和第二个样本点绘制到直角坐标系上,可发现第二个点相比较于第一个点而言随着x的增大而增大,随着y的增大而增大,因此,第一个点和第二个点是正相关的,以这两个点为矩形的对角进行绘制红色矩阵。

 

 

接着在绘制第三个样本点,将第三个样本点与第一个样本点和第二个样本点进行对比,发现第三个样本点与第一个样本点呈正相关,绘制红色矩形;与第二个样本点呈负相关,绘制蓝色矩形。

 

 最后引入第四个点,与第三个点类似的操作,分别与其余的点进行比较,绘制相应的矩形。

 

从图像上看,红色矩形占比面积比蓝色的要大,因此身高和体重呈正相关关系。虽然这个方式很直观,但是每次引入一个新的样本点都要计算与其他不同点的相关性,比较麻烦。比如此时给出第五个点,与上述操作类似,需要绘制4个矩形。

 

既然要和其余所有的点进行比较,那么与均值的比较效果也是一样的,因此先计算出所有样本点的均值,随后每当引入一个样本点,都只与均值点进行比较相关性即可。可以看出依旧是红色占比面积比蓝色大,因此身高和体重是呈正相关的。

 

 将均值点作为直角坐标系原点,设第一个样本点坐标为(x1,y1),均值点用(X,Y),则第一个矩形面积为(x1-X)(y1-Y),以此类推,可得到

(x1-X)(y1-Y)+(x2-X)(y2-Y)+(x3-X)(y3-Y)+(x4-X)(y4-Y)+(x5-X)(y5-Y)。

注意,这里面积是非负数,但在第三个点与均值点所围成的蓝色矩形位于四象限,(x3-X)(y3-Y)得到的结果为负数,加上该负数就相当于减去该蓝色区域。

将上面的式子通过连加号简写,得

\sum (xi-X)(yi-Y)

 

 虽然通过上式我们可以得到身高与体重的相关性,但它还不是协方差。

此时,在保证均值不变的条件下,引入了两个极端样本点,矮的人特别胖,高的人特别瘦,此时,发现绘制出来的矩形面积蓝色会比红色大,身高和体重呈负相关,这与我们的自然规律相违背。那么出现了什么问题呢?

 

是因为我们引入数据的时候没有考虑其出现的概率,引入的两个极端样本点在日常生活中出现的概率极低。

加入概率因素,求得平均数,称为加权平均数。

将原点移动到概率平均数,式子里边的均值就替换成加权平均数\mu X\mu Y,

\sum (xi-\mu X)(yi-\mu Y)

将其每个面积乘以相应的概率。

\sum pi(xi-\mu X)(yi-\mu Y)

 

因此,每一个面积都有不同程度的缩小。 可以看到红色矩形面积比蓝色大。

 

通过式子:

\sum pi(xi-\mu X)(yi-\mu Y)

可以判断出随机变量的相关性了。 

将其改成期望的形式:

Cov(x,y)=E[(x-\mu X)(y-\mu Y)]

参考博主视频:如何通俗地解释协方差_哔哩哔哩_bilibili

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值