简单的说,协方差就是描述两个随机变量之间的相关性。
随机变量的相关性分为三种:正相关、负相关、不相关。
考察身高和体重的相关性
以身高为横坐标,体重为纵坐标建立直角坐标系,将采集的样本点画到直角坐标系上。
将第一个和第二个样本点绘制到直角坐标系上,可发现第二个点相比较于第一个点而言随着x的增大而增大,随着y的增大而增大,因此,第一个点和第二个点是正相关的,以这两个点为矩形的对角进行绘制红色矩阵。
接着在绘制第三个样本点,将第三个样本点与第一个样本点和第二个样本点进行对比,发现第三个样本点与第一个样本点呈正相关,绘制红色矩形;与第二个样本点呈负相关,绘制蓝色矩形。
最后引入第四个点,与第三个点类似的操作,分别与其余的点进行比较,绘制相应的矩形。
从图像上看,红色矩形占比面积比蓝色的要大,因此身高和体重呈正相关关系。虽然这个方式很直观,但是每次引入一个新的样本点都要计算与其他不同点的相关性,比较麻烦。比如此时给出第五个点,与上述操作类似,需要绘制4个矩形。
既然要和其余所有的点进行比较,那么与均值的比较效果也是一样的,因此先计算出所有样本点的均值,随后每当引入一个样本点,都只与均值点进行比较相关性即可。可以看出依旧是红色占比面积比蓝色大,因此身高和体重是呈正相关的。
将均值点作为直角坐标系原点,设第一个样本点坐标为(x1,y1),均值点用(X,Y),则第一个矩形面积为(x1-X)(y1-Y),以此类推,可得到
(x1-X)(y1-Y)+(x2-X)(y2-Y)+(x3-X)(y3-Y)+(x4-X)(y4-Y)+(x5-X)(y5-Y)。
注意,这里面积是非负数,但在第三个点与均值点所围成的蓝色矩形位于四象限,(x3-X)(y3-Y)得到的结果为负数,加上该负数就相当于减去该蓝色区域。
将上面的式子通过连加号简写,得
虽然通过上式我们可以得到身高与体重的相关性,但它还不是协方差。
此时,在保证均值不变的条件下,引入了两个极端样本点,矮的人特别胖,高的人特别瘦,此时,发现绘制出来的矩形面积蓝色会比红色大,身高和体重呈负相关,这与我们的自然规律相违背。那么出现了什么问题呢?
是因为我们引入数据的时候没有考虑其出现的概率,引入的两个极端样本点在日常生活中出现的概率极低。
加入概率因素,求得平均数,称为加权平均数。
将原点移动到概率平均数,式子里边的均值就替换成加权平均数,,
将其每个面积乘以相应的概率。
因此,每一个面积都有不同程度的缩小。 可以看到红色矩形面积比蓝色大。
通过式子:
可以判断出随机变量的相关性了。
将其改成期望的形式:
参考博主视频:如何通俗地解释协方差_哔哩哔哩_bilibili