1.矩形面积
引入两个常见变量身高X和体重Y,这两者是比较常见的正相关,以下是一组身高和体重数据:
我们在平面坐标上先画出2个人的坐标点,然后以两个点画一个矩阵,为了后续更好的解释正负相关性,我们用红色表示正相关,蓝色表示负相关。那么前两个点之间就是红色矩阵。计算矩阵面积为(160-152)×(54-45)=72,结果是正数。
接下来我们在该平面上引入第三个点,那么第三个点和前两个点分别组成矩阵,由于该同学比较瘦高,那么第三个点和前两个点呈负相关,呈蓝色,如下图所示。计算其中一个蓝色矩阵面积(172-152)×(44-45)=-20,面积为负数。
以此类推,我们将所有点都引入到该平面,并画出所有矩阵,如下图所示
从以上平面中我们可以看到,平面中红色矩阵占大部分,而蓝色矩阵比较少,所以整体呈现红色。我们计算所有矩阵的面积,最后的结果也为正数,这说明X,Y这两个随机变量整体上是正相关的关系;如果蓝色矩阵占大多数,所有矩阵的面积为负数,则两个变量是负相关;如果两个颜色差不多,矩阵面积为0,则不相关。
我们用数学公式表示所有的矩阵面积如下:
A = ∑ i , j = 12... n i ≤ j ( x i − x j ) ( y i − y j ) A = \sum_{i,j=12...n}^{i≤j}(x_i-x_j)(y_i-y_j) A=i,j=12...n∑i≤j(xi−xj)(yi−yj)
那么 X 和 Y 的相关性 = { 正相关, A > 0 负相关, A < 0 不相关, A = 0 X和Y的相关性 = \left\{\begin{aligned}正相关,A>0\\ 负相关,A<0\\ 不相关,A=0 \end{aligned}\right. X和Y的相关性=⎩
⎨
⎧正相关,A>0负相关,A<0不相关,A=0
2.协方差
我们需要对上门的矩阵面积公式进行简化,我们用X的均值 μ X μX μX替换所有 X j X_j Xj,用Y的均值 μ Y μY μY替换所有 Y j Y_j Yj,则公式可以简化为:
A =