![c5b77f35054c1c672d04df157c6a4c86.png](https://img-blog.csdnimg.cn/img_convert/c5b77f35054c1c672d04df157c6a4c86.png)
1 正相关与负相关
1.1 相关性
事物之间可能会有关系,这可以通过数据看出。比如要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高,两者的关系称为 正相关 :
![e5386d586af8288cdd99d381fd7570ba.png](https://img-blog.csdnimg.cn/img_convert/e5386d586af8288cdd99d381fd7570ba.png)
城镇化有另外一个反作用,降低出生率。城镇化和出生率之间的关系就是 负相关 ,也就是说城镇化率越高、出生率会越低,所以说,“城镇化是最好的避孕药”:
![63eaa9f6c20c3f32f0f1e3babb454a4f.png](https://img-blog.csdnimg.cn/img_convert/63eaa9f6c20c3f32f0f1e3babb454a4f.png)
1.2 股票组合
在现实生活中了解相关性是很有用处的,比如下面有三支股票,年度收益都是
![2ed3c710afc79524cb31a22c2fa00cae.png](https://img-blog.csdnimg.cn/img_convert/2ed3c710afc79524cb31a22c2fa00cae.png)
可以看到蓝色、绿色这两只股票走势基本一致,也就是这两者正相关;而蓝色、红色走势相反,蓝色上涨的时候红色下跌,也就是这两者负相关。基金经理会倾向于把负相关的两支股票做成一个组合,这样收益率也还是
这种相关性可以通过下面要介绍的 协方差 和 相关系数 来表示和计算。
2 矩形的面积
2.1 颜色
假设有两个随机变量,身高
但是怎么通过数学来表达呢?我们来看一个例子,下面是某班同学的身高体重:
![a39fc25cd58c16542cf892ea48f1b6b5.png](https://img-blog.csdnimg.cn/img_convert/a39fc25cd58c16542cf892ea48f1b6b5.png)
这两个随机变量可以构成二维平面上的点
![156361505703115dd0dbffb20040198e.png](https://img-blog.csdnimg.cn/img_convert/156361505703115dd0dbffb20040198e.png)
很显然,相对于第一个点
![2ec0b716fa966f68b0902c89fa685e45.png](https://img-blog.csdnimg.cn/img_convert/2ec0b716fa966f68b0902c89fa685e45.png)
现在加入第三个点
![e2e6fb8ff0c44b50739c19f4429dfb5e.png](https://img-blog.csdnimg.cn/img_convert/e2e6fb8ff0c44b50739c19f4429dfb5e.png)
接着增加第四个点
![b5f207a3f63628b59135971152bea3db.png](https://img-blog.csdnimg.cn/img_convert/b5f207a3f63628b59135971152bea3db.png)
画完之后整体看上去是红色的,这说明
2.2 面积
从图形上可以看出红色有优势,说明是正相关。下面来看看如何通过代数计算出这个结果。从第一个红色矩形开始:
![5bb392ac9428e2a5402b901424bc7966.png](https://img-blog.csdnimg.cn/img_convert/5bb392ac9428e2a5402b901424bc7966.png)
可以算出这个红色矩形的面积为正:
而某个蓝色矩形:
![678bba8d3c8867b762e761527ff3237b.png](https://img-blog.csdnimg.cn/img_convert/678bba8d3c8867b762e761527ff3237b.png)
它的“面积”为负:
所以把所有的矩形的“面积”加起来,如果为正那么说明就是红色矩形占优势,也就是正相关;反之则是负相关;为0的话说明哪个都不占优势,则是不相关。就这里的具体问题而言,很显然红色更占优势,所以算出来为正(总共有
2.3 一般化
如果有
来表示组成矩形的两个顶点,那么所有矩形的面积的和就可以表示为:
那么:
3 协方差
可以看出要计算面积还是挺麻烦的,数学家给出了一个简化的方案。
3.1 简化
按照刚才的计算方法,比如说某一个点
这样之前的面积计算公式就从:
变为了:
如此,计算就被大大简化了。下面用这种方法重新算下刚才的例子。
3.2 具体的例子
首先以
![084dcc4e4082ca0701925247662a4780.png](https://img-blog.csdnimg.cn/img_convert/084dcc4e4082ca0701925247662a4780.png)
容易知道,一、三象限的点和
![048c3c8da1011d139c1ff3a01ac89046.png](https://img-blog.csdnimg.cn/img_convert/048c3c8da1011d139c1ff3a01ac89046.png)
在第四个象限中有一个点,它和
![f1edc3eb1461930cdf10fcb72021b67f.png](https://img-blog.csdnimg.cn/img_convert/f1edc3eb1461930cdf10fcb72021b67f.png)
把所有矩形都画出来的话(总共只有5个矩形,按照上节给出的算法总共需要画10个矩形,可见现有算法确实大大简化了,点越多简化的效果越好),可以看到还是红色占优,因此总体来看
![e3e5e7835f6e3f546d0ea6ced338b5ff.png](https://img-blog.csdnimg.cn/img_convert/e3e5e7835f6e3f546d0ea6ced338b5ff.png)
3.3 协方差
还要考虑一点,每个点的概率是不一样的,因此各个矩形的面积并非是平等的,或者说权重是不一样的,所以需要对面积和进行加权平均,也就是对面积和计算数学期望,这就得到了:
设是一个二维随机变量,若
存在,则称此数学期望为
与
的 协方差(Covariant),记作:
特别地有
。![]()
很显然会有:
-
时,
、
正相关,即两者有同时增加或者减少的倾向
-
时,
、
负相关,即两者有反向增加或者减少的倾向
-
时,
、
不相关
4 相关系数
之前求出来的协方差是有单位的,比如身高
假如又有一个随机变量,同学的年龄
对于二维随机变量,各自的方差为:
则:
称为随机变量
和
的 相关系数 。![]()
之前介绍过标准差是有单位的,比如刚才举的例子身高
单位就约掉了,变成没有单位的数了,就可以进行比较了。比如刚才提到的身高
马上可以知道相对于年龄,身高与体重之间的正相关关系更强烈。
5 线性相关
“正相关”或者“负相关”实际指的是
![674e908aaf6692183804e1665d392193.png](https://img-blog.csdnimg.cn/img_convert/674e908aaf6692183804e1665d392193.png)
![ccaa194ad76e217780b3e7aafab15212.png](https://img-blog.csdnimg.cn/img_convert/ccaa194ad76e217780b3e7aafab15212.png)