相关性分析

皮尔逊相关系数

我们先回顾下《概率论与数理统计》中的内容:
        如果两组数据 X:{X1,X2,...Xn} 和 Y:{Y1,Y2,...Yn} 是总体数据,总体均值分别为E(X)和E(Y),那么总体协方差:
         \small Cov(X,Y) = \frac{\sum_{i=1}^{n}(Xi - E(X))(Yi - E(Y))}{n}
直观理解协方差:如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,则协方差为正;如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。(因此总体协方差可以反映X、Y的相关性)

注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。Pearson相关系数就是为了消除变量量纲的影响。

总体Pearson相关系数:
        \small \rho _{XY} = \frac{Cov(X,Y)}{\sigma _{X}\sigma _{Y}} = \frac{\sum_{i=1}^{n}\frac{(Xi - E(X))}{\sigma _{X}}\frac{(Yi - E(Y))}{\sigma _{Y}}}{n}
其中 \small \sigma _{X}\small \sigma _{Y} 分别是X、Y的标准差:
        \small \sigma _{X} = \sqrt{\frac{\sum_{i=1}^{n}(X_{i}-E(X))^{2}}{n}},\ \sigma _{Y} = \sqrt{\frac{\sum_{i=1}^{n}(Y_{i}-E(Y))^{2}}{n}}
可以证明,|\small \rho _{XY}\small \leqslant 1,且当 Y = aX+b 时,\small \rho _{XY}=\left\{\begin{matrix} 1, & a>0\\ -1, & a<0 \end{matrix}\right.
Pearson相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。

假设 X:{X1,X2,...Xn} 和 Y:{Y1,Y2,...Yn} 是两组样本数据,\small \bar{X}\small \bar{Y}分别为样本均值,那么
样本协方差:
        \small Cov(X,Y) = \frac{\sum_{i=1}^{n}(Xi - \bar{X})(Yi - \bar{Y})}{n-1}
样本Pearson相关系数:
        \small \gamma _{XY} = \frac{Cov(X,Y)}{S _{X}S _{Y}} = \frac{\sum_{i=1}^{n}\frac{(Xi - \bar{X})}{S _{X}}\frac{(Yi - \bar{Y})}{S _{Y}}}{n-1}
其中 \small S _{X}\small S_{Y} 分别是X、Y的标准差:
        \small S _{X} = \sqrt{\frac{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}{n-1}},\ S _{Y} = \sqrt{\frac{\sum_{i=1}^{n}(Y_{i}-\vec{Y})^{2}}{n-1}}

关于皮尔逊相关系数的一些理解误区:

 
皮尔逊相关系数只是用来衡量两个变量线性相关程度的指标,也就是说,必须先确认这两个变量是线性相关的,然后这个Pearson相关系数才能告诉你他俩相关程度如何

总结:
(1)如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
(2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数发现很大,也不能说明这两个变量线性相关,甚至不能说它们相关,我们一定要画出散点图来看才行。

对相关系数大小的解释

相关性
无相关性-0.09~~0.00.0~~0.09
弱相关性-0.3~~-0.10.1~~0.3
中相关性-0.5~~-0.30.3~~0.5
强相关性-1.0~~-0.50.5~~1.0

(上表所定的标准从某种意义上说是武断的和不严格的;对相关系数的解释是依赖于具体的应用背景和目的的)

        事实上,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)

假设检验

置信水平 \beta =1-\alpha :相信原假设成立的概率(一般取90%,95%,99%)
显著性水平 \alpha :犯第一类错误的概率(我们有多大的可能性拒绝原假设)

第一步:确定原假设 H_{0} 和备择假设 H_{1} (H_{0} 和 H_{1} 是恰好相反的两面);
第二步:在原假设 H_{0} 成立的条件下,根据我们要检验的量构造一个分布(如标准正态分布、t分布、F分布、卡方分布);
第三步:给定一个置信水平 β (相信 H_{0} 成立的概率),求出接受域;对于双侧检验即求 P(a ≤ 统计量 ≤ b) = β,对于单侧检验即求 P(-∞ ≤ 统计量 ≤ b) = β
第四步:用已知的样本数据代入统计量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值