学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数

本文详细介绍了在SPSS26软件中如何进行双变量相关性分析,包括皮尔逊、Spearman和KendallsTau-b系数的基本概念、适用条件、计算方法以及它们之间的比较。特别强调了皮尔逊系数的线性假设及其局限,以及非参数相关在不同情况下的适用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习目的

SPSS中双变量相关性分析系数

软件版本

IBM SPSS Statistics 26。

原始文档

三个相关系数的注意事项
Pearson/Spearman/Kendallta三大相关系数怎么选?怎么计算?
《小白爱上SPSS》课程第18讲数据
Statistical functions (scipy.stats)包-scipy.stats.pearsonr
Statistical functions (scipy.stats)包-scipy.stats.spearmanr
Statistical functions (scipy.stats)包-scipy.stats.kendalltau
百度百科:spearman相关系数
相关性检验-Kendall’s Tau-b相关系数
Pearson’s Correlation 皮尔逊相关性分析详细操作

基础概念

皮尔逊相关系数

Pearson相关系数是传统的统计分析工具,应用广泛。Pearson相关系数公式:
在这里插入图片描述
但其有明显的理论局限,即只能度量线性的相关性,隐含地做了高斯性假设(正态分布、独立性假、方差齐性),使其无法在非线性和非高斯的情况下应用。

基本假设(适用条件):

每个观察值应具有一对值。比较的两个变量必须来源于同一个总体。
每个变量应该是连续的。
每个变量应为正态分布。
应该没有异常值。

系数的范围及意义

皮尔逊相关系数的范围是位于[-1,1]之间。相关系数展示了方向性:
如果相关系数接近1,说明两个变量之间呈较高的正相关性;
如果相关系数接近-1,说明两个变量之间呈较高的负相关性;
如果相关系数接近0,说明两个变量之间彼此独立,没有相关性。

实例

1. 读数据:
GET 
  FILE='E:\E盘备份\recent\小白爱上SPSS\小白数据\第十八讲:线性相关分析.sav'. 
2.正态性检验:
EXAMINE VARIABLES=体重 肺活量
  /PLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表*/
  /COMPARE GROUPS 
  /STATISTICS DESCRIPTIVES 
  /CINTERVAL 95 
  /MISSING LISTWISE 
  /NOTOTAL.

在这里插入图片描述

在这里插入图片描述
经S-W(夏皮洛-威尔克)检验,体重、肺活量数据的p值分别为0.490和0.465,均大于0.05,无统计学意义,支持原假设,可认为两组数据符合正态分布。

3.异常值检验(体重):
USE ALL. 
COMPUTE filter_$=(体重 <= (49.308+3*5.3245)  &  体重 >= (49.308-3*5.3245)). 
VARIABLE LABELS filter_$ '体重 <= (49.308+3*5.3245)  &  体重 >= (49.308-3*5.3245) (FILTER)'. 
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. 
FORMATS filter_$ (f1.0). 
FILTER BY filter_$. 
EXECUTE.

无异常值:
在这里插入图片描述
异常值检验(肺活量):

USE ALL. 
COMPUTE filter_$=(肺活量 <= (2.9342+3*.43383)  &  肺活量 >= (2.9342-3*.43383)). 
VARIABLE LABELS filter_$ '肺活量 <= (2.9342+3*.43383)  &  肺活量 >= (2.9342-3*.43383) (FILTER)'. 
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. 
FORMATS filter_$ (f1.0). 
FILTER BY filter_$. 
EXECUTE.

无异常值:
在这里插入图片描述

4.分析:
CORRELATIONS 
  /VARIABLES=体重 肺活量 
  /PRINT=TWOTAIL NOSIG  /*显著性检验:双尾*/
  /STATISTICS DESCRIPTIVES /*选项中选定:平均值、标准偏差*/
  /MISSING=PAIRWISE	 /*皮尔逊*/.

在这里插入图片描述
皮尔逊相关性分析结果显示,P值显著性为0.001。P值小于0.05,说明示例的两个变量相关。相关性系数为0.828,离1比较近,也说明呈较高的正相关性。

斯皮尔曼相关系数

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。
对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为:
在这里插入图片描述
斯皮尔曼相关系数表明X(独立变量)和Y(依赖变量)的相关方向。如果当X增加时,Y趋向于增加,斯皮尔曼相关系数则为正。如果当X增加时,Y趋向于减少,斯皮尔曼相关系数则为负。斯皮尔曼相关系数为零表明当X增加时Y没有任何趋向性。当X和Y越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。当X和Y完全单调相关时,斯皮尔曼相关系数的绝对值为1。完全的单调递增关系意味着任意两对数据Xi,Yi和Xj,Yj,有Xi−Xj和Yi−Yj总是同号。完全的单调递减关系意味着任意两对数据Xi,Yi和Xj,Yj,有Xi−Xj和Yi−Yj总是异号。
斯皮尔曼相关系数经常被称作"非参数"的。这里有两层含义。首先,当X和Y的关系是由任意单调函数描述的,则它们是完全皮尔逊相关的。与此相应的,皮尔逊相关系数只能给出由线性方程描述的X和Y的相关性。其次,斯皮尔曼不需要先验知识(也就是说,知道其参数)便可以准确获取XandY的采样概率分布。

基本假设(适用条件):

两对数据的观察是独立的。
应按序数,区间或比率测量两个变量。
假定两个变量之间存在单调关系。
皮尔逊Pearson相关系数使用前提条件中,任何一个条件不满足时可以考虑使用该系数;
Spearman与Pearson相关系数计算很类似,只是Spearman计算需要将两个变量转化为序数。

肯德尔tau-b相关系数

Kendall’s Tau相关系数,是由英国统计学家Maurice Kendall于1938年提出,主要包括Somers’ D、Goodman-kruskal’s gamma(γ)、Kendall’s Tau(a、b、c)等一系列相关系数。其中,最常用的是Kendall’s Tau-b和Kendall’s Tau-c相关系数。Kendall’s Tau相关系数适用于判断两列离散有序型数据之间的相关性,本文主要讲解Kendall’s Tau-b相关系数的计算。
在这里插入图片描述

基本假设(适用条件):

假设同spearman。但适应条件和前两者比完全不一样,衡量有序分类型数据的序数相关性。

相关性系数的比较

皮尔森相关与Spearman和Kendall相关

非参数相关(指 spearman和hendall)的表达能力相对较弱,因为它们在计算中使用的信息较少。在Pearson的情况下,相关性使用有关均值和均值偏差的信息,而非参数相关性仅使用序数信息和成对分数。
在非参数相关的情况下,X和Y值可能是连续的或有序的,并且不需要X和Y的近似正态分布。但在皮尔逊相关的情况下,它假定X和Y的分布应该是正态分布,并且也应该是连续的(因此做spearman之前要做一些对数变换之类的尽量接近正态分布)。
相关系数 测量线性(皮尔逊)或单调(Spearman和Kendall)关系。

Spearman相关与Kendall相关

在正常情况下,Kendall相关性比Spearman相关性更强健和有效。这意味着当样本量较小或存在一些异常值时,首选Kendall相关。
在所有情况下,Kendall相关系数的绝对值均小于其他绝对值。 可以看出,肯德尔相关性比其他相关性更为保守。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

打酱油的工程师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值