相关系数知识点

本文介绍了Pearson、Spearman和Kendall三种用于衡量数值和类别变量间关联性的统计方法,强调了它们各自的适用条件、特点以及Python中scipy.stats库的代码实现。特别关注了正态性检验和相关系数假设检验的过程。
摘要由CSDN通过智能技术生成

1.Pearson(皮尔逊)相关系数

  • 方法公式

在这里插入图片描述

  • 适用条件

数据类型:衡量数值型连续变量相关性的指标
数据要求:
①两变量方差属于正态分布;
②存在线性关系;
③两变量连续有相同的观测值且不存在缺失值;
④变量标准差分母不能为0
特点:数据要求高/检验效率高/受异常值影响较大

2.Spearman(斯皮尔曼)相关系数

  • 方法公式

一种秩相关系数,简单理解为计算原数据在新排序中所处的排列位置的差值;
计算

  • 适用条件

数据类型:衡量类别变量(性别,区域等)相关性的指标
适用范围:对于不满足Pearson相关系数要求的连续型变量数据,可以使用Spearman相关系数,也可针对定序和定类变量的数据
系数特点:
①数据要求低,非参数检验,适合非正态分布的变量
②不会出现皮尔逊相关系数中分母为0而无法计算的情况;
③由于异常值的秩次不会有明显的变化,所以系数的影响也比较小

3.Kendall(肯德尔)相关系数

  • 方法公式

一种秩相关系数,计算的对象是有序的类别变量:一致对和分歧对来度量
计算公式

  • 适用条件

数据类型:有序的类别变量,比如名次、年龄段、肥胖等级(重度中度轻度不肥胖)等
特点:与Spearman相同,常常使用定序数据相关性分析。

4.代码实现

  • 第一步:数据准备
# 商详转化率
y=[0.691, 0.719, 0.685, 0.695, 0.664, 0.634, 0.651, 0.672, 0.674, 0.66 , 0.627, 0.612]
# 页面停留时长
x1=[68. , 70.5, 67.8, 67.9, 64.3, 62.5, 63.6, 65.2, 65.3, 64.7, 61.6,58.7]
  • 第二步:正态性检验(仅Pearson相关系数)
    原假设H0:样本的总体分布服从正态分布
    备择假设H1:样本的总体分布服从正态分布
    判定:若P值>0.05,则接受H0,即样本服从正态分布
import scipy
import numpy as np
#u = data[column].mean() # 计算均值
u = np.mean(y) # 计算均值
#std = data[column].std() # 计算标准差
std =np.std(y)
#计算相关性和P值:0.105  0.99
r,p = scipy.stats.kstest(y,'norm',(u,std))
print(r,p)	

  • 第三步:相关系数假设检验
    原假设H0:变量之间不相关
    备择假设H1:变量之间相关
    判定:若P值<0.05,则拒绝H0,即变量之间相关
#Pearson相关系数:0.986   4.0255952319889544e-09
r1,p1=scipy.stats.pearsonr(x1,y)
#Spearman相关系数: 0.986    4.1168959116543284e-09
r2,p2=scipy.stats.spearmanr(x1,y)
#kendall相关系数: 0.939   3.2150205761316875e-07
r3,p3 = scipy.stats.kendalltau(x1,y)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值