相关性模型 之 皮尔逊相关系数与斯皮尔曼相关系数

皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数。它们可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析(建模论文中最容易用错的方法)。

一、基本概念

总体——所要考察对象的全部个体叫做总体.
我们总是希望得到总体数据的一些特征(例如均值方差等)
样本——从总体中所抽取的一部分个体叫做总体的一个样本

计算这些抽取的样本的统计量来估计总体的统计量:
例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)

假设检验:参阅《概率论与数理统计》第八章

二、皮尔逊Pearson相关系数

就是概率论学的相关系数。一般我们认为不加前缀说明的相关系数都是皮尔逊相关系数

首先我们要理解协方差
在这里插入图片描述关于协方差:如果X、Y(相对于均值)变化方向相同则乘积为正,反之为负

注:协方差的大小和两个变量的量纲有关,因此不适合做比较。
所以我们引入皮尔逊相关系数剔除了量纲的影响,即将X和Y标准化后的协方差

(1)总体皮尔逊相关系数
在这里插入图片描述(2)样本皮尔逊相关系数
在这里插入图片描述

一些误区

以上的相关系数只是用来来衡量两个变量线性相关程度的指标;即我们必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何(先画散点图)
eg.形式上必须大致满足 Y = a*X+b
例如下面几个错误示例
在这里插入图片描述
总结:

  1. 如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
  2. 在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。

相关系数的显著性

在这里插入图片描述
一般相关系数大小与相关性的参照如上。**但是!!!**上表所定的标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的。

所以,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)

  1. 用绘制散点图观察是否为线性(SPSS更为方便)
  2. 对数据进行描述性统计(每个指标的最小值、最大值、均值、中位数值、偏度、峰度、标准差等)
  3. 计算相关系数矩阵(corrcoef)。可以对其进行数据可视化处理(Excel)
  4. 对皮尔逊相关系数进行假设检验:
    (1)查表法
    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

注:
在数理统计中,第二步的原假设和备择假设中的𝑟应该改为𝜌, 其中𝜌为未知的总体相关系数,实际上我们关心的是总体的统计特征。(意思喃大概就是这么个意思,深究我就看不懂了)
t分布表:https://wenku.baidu.com/view /d94dbd116bd97f192279e94a.html

(2)p值判断法
这种方法要简单一点
在这里插入图片描述
补充:0.5、0.5* 、0.5**、0.5***的含义(显著性标记)

一般我们默认的置信水平是95%(即显著性水平是5%

计算各列之间的相关系数以及p值matlab代码

[R,P] = corrcoef(Test)  
%R返回的是相关系数表,P返回的是对应于每个相关系数的p值

皮尔逊相关系数假设检验的条件

第一、 实验数据通常假设是成对的来自于正态分布的总体。因为我们在求皮尔逊相关性系数以后,通常还会用t检验之类的方法来进行皮尔逊相关性系数检验,而t检验是基于数据呈正态分布的假设的。
第二、实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较大。
第三、每组样本之间是独立抽样的。构造 t 统计量时需要用到

检验样本是否符合正态分布
(1)JB检验(雅克‐贝拉检验) :大样本 n>30
在这里插入图片描述
峰度和偏度:
在这里插入图片描述峰度就是样本的三阶矩,偏度是四阶矩。偏度左正右负,峰度越大越尖

x = normrnd(2,3,100,1); 
% 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布
skewness(x) %偏度
kurtosis(x) %峰度

matlab在的JB检验函数

[h,p] = jbtest(x,alpha)
%当输出h等于1时,表示拒绝原假设;h等于0则代表不能拒绝原假设。
%alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95
%x就是我们要检验的随机变量,注意这里的x只能是向量。

(2)Shapiro-wilk检验(夏皮洛‐威尔克检验):小样本: 3 < n < 50
在这里插入图片描述这个通过SPSS较为方便
在这里插入图片描述在这里插入图片描述得到的这个表只用看最后一列就好啦
这样检验的话还可以得到一些QQ图

(3)Q-Q图
在统计学中,Q‐Q图(Q代表分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。
首先选定分位数的对应概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同概率区间上相同的分位数。
这里,我们选择正态分布和要检验的随机变量,并对其做出QQ图,可想而知,如果要检验的随机变量是正态分布,那么QQ图就是一条直线。要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点是否近似地在一条直线附近。(要求数据量非常大!!!)

qqplot(Test(:,1))

三、斯皮尔曼相关系数

在这里插入图片描述
注:另一种定义:等级之间的皮尔逊相关系数
这个是可以证明的,但是实际应用中结果可能与第一种定义有所不同(因为这个规定:如果有的数值相同,则将它们所在的位置取算术平均)。如果数据没有相同的则理论上与第一种定义结果相等。

metlab斯皮尔曼相关系数的句法:

(1)corr(X , Y , 'type' , 'Spearman')
%这里的X和Y必须是列向量
(2)corr(X , 'type' , 'Spearman')
%这时计算X矩阵各列之间的斯皮尔曼相关系数
%matlab用的是第二种定义

斯皮尔曼相关系数的假设检验

(1)小样本(𝒏 < 𝟑𝟎) :直接查临界值表
临界值表

(2)大样本情况(n > 30): P 值法
在这里插入图片描述

% 直接给出相关系数和p值
[R,P]=corr(Test, 'type' , 'Spearman')

四、两种相关系数的比较

皮尔逊相关系数:
在这里插入图片描述斯皮尔曼相关系数:
在这里插入图片描述

斯皮尔曼相关系数和皮尔逊相关系数选择:
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以, 就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。

注:(1)定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量形成的,表现为类别,可以进行排序,属于品质数据。
eg. 优良差用123表示,加减乘除没有意义。定序数据最重要的意义代表了一组数据中的某种逻辑顺序
(2)斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系(例如线性函数、指数函数、对数函数等)就能够使用

另:对数据的可视化(相关系数矩阵)

在这里插入图片描述

  • 54
    点赞
  • 299
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
皮尔逊相关系数是用来衡量两个连续变量之间线性关系强度和方向的统计量,其取值范围在-1到1之间。其优点和缺点如下: 优点: 1. 易于计算和解释:皮尔逊相关系数的计算相对简单,结果易于理解和解释。 2. 衡量线性关系:皮尔逊相关系数能够有效地衡量变量之间的线性关系强度和方向,对于线性关系较强的变量适用。 3. 可作为预测模型的特征选择依据:皮尔逊相关系数可以用来选择与目标变量相关性较高的特征,作为预测模型的输入变量。 缺点: 1. 只能衡量线性关系:皮尔逊相关系数只能衡量两个变量之间的线性关系,无法捕捉到非线性关系。 2. 对异常值敏感:皮尔逊相关系数对异常值较为敏感,特别是在样本较小的情况下,异常值会对相关系数产生较大影响。 3. 对数据分布要求较严格:皮尔逊相关系数要求变量服从正态分布,并且假设数据呈线性关系。 模型推广的方法: 1. 非线性关系的推广:对于存在非线性关系的变量,可以考虑使用其他非线性相关系数,如斯皮尔曼等级相关系数,来刻画变量之间的关系。 2. 异常值处理:在计算皮尔逊相关系数时,可以考虑对异常值进行处理,如删除或者替换为缺失值,以减少其对相关系数的影响。 3. 数据分布假设的放宽:如果变量不满足正态分布假设,可以尝试进行数据变换,如对数变换或者指数变换,使数据更接近正态分布。同时,也可以使用非参数的相关系数方法来处理数据。 以上是关于皮尔逊相关系数模型的优缺点以及推广的基本介绍,希望对你有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值