Python玩转数据分析——相关分析

Pearson 相关检验

在参数统计中,常用的相关分析方法是 Pearson 相关系数,公式如下:
r ( X , Y ) = ∑ i [ ( X i − X ˉ ) ( Y i − Y ˉ ) ] ∑ i ( X i − X ˉ ) 2 ∑ i ( Y i − Y ˉ ) 2 r(\bm{X,Y})=\frac{\sum^{}_{i}[(X_i-\bar{X})(Y_i-\bar{Y})]} {\sqrt{\sum^{}_{i}(X_i-\bar{X})^2 \sum^{}_{i}(Y_i-\bar{Y})^2}} r(X,Y)=i(XiXˉ)2i(YiYˉ)2 i[(XiXˉ)(YiYˉ)]
现有一个容量为 7 的样本( X, Y ),X = [ 1, 2, 3, 5, 12, 6, 100 ],Y = [ 4, 3, 2, 1, 3, 8, 98 ]。Pearson 相关检验如下:

import scipy.stats as stats
x=[1,2,3,5,12,6,100]
y=[4,3,2,1,3,8,98]
stats.pearsonr(x,y)

输出结果为:(0.993499917707721, 6.519840976305177e-06)
结果显示 Pearson 相关系数为 0.99 ,P值为 6.52e-06 ,表明 XY 有显著的强相关关系。

Spearman 秩相关检验

Pearson 检验有一个缺陷,即容易受离群点或高杠杆点的影响。比如上面 XY 两变量中最后一个样本点( 100, 98 ),这一个样本点与其他样本点大大不同,放在一个分布之下进行分析显然是不合理的。
Spearman 秩相关检验将各变量中的值转换为秩,再计算相关系数,计算公式与Pearson 相关系数计算公式相同,只不过把变量值转换成了秩。因此,Spearman 秩相关检验能有效避免 Pearson 相关检验的缺陷。
Spearman 秩相关检验如下:

stats.spearmanr(x,y)

输出结果为:SpearmanrResult(correlation=0.36037498507822363, pvalue=0.42714880856090626)
可以看到,相关系数变为了0.36,且p值为0.43,表明 XY 相关关系并不显著。

Kendall τ \tau τ 相关检验

Kendall τ \tau τ 相关检验与 Spearman 秩相关检验类似,不同之处在于Kendall τ \tau τ 相关检验从两变量 ( x i , y i ) ( i = 1 , 2 , . . . , n ) (x_i, y_i)(i=1,2,...,n) (xi,yi)(i=1,2,...,n) 是否协同一致的角度出发检验两变量之间是否存在相关性。
Kendall τ \tau τ 相关检验如下:

stats.kendalltau(x,y)

输出结果为:KendalltauResult(correlation=0.19518001458970663, pvalue=0.5434238636256696)
相关系数为0.195,且p值为0.543,依然表明 XY 相关关系不显著。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值