title: 相关系数
date: 2020-01-27 11:42:46
categories: 数学建模
tags: [统计, MATLAB, spss]
mathjax: true
---
相关系数(皮尔逊相关系数)
(1)如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
(2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图(spss很方便)来看才行。
事实上,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)
假设检验
对皮尔逊相关系数进行假设检验
第一步:提出原假设H0和备择假设H1
两个假设是截然相反,假设我们计算出了一个皮尔逊相关系数r,我们想检验它是否显著的异于0.那么我们可以这样设定原假设和备择假设:H0:r=0,H1:r≠0
第二步:在原假设成立的条件下,利用我们要检验的量构造出一个符合某一分布的统计量
(注1:统计量相当于我们要检验的量的一个函数,里面不能有其他的随机变量)
(注2:这里的分布一般有四种:标准正态分布、t分布、x2分布和F分布)
对于皮尔逊相关系数r而言,在满足一定条件下,我们可以构造统计量:
\[
t = r\sqrt{(n-2)/(1-r^{2})}
\]
可以证明t是服从自由度为n-2的t分布
第三步:将我们要检验的这个值带入这个统计量中,可以得到一个特定的值(检验值)。
假设我们现在计算出来的相关系数为0.5,样本为30,那么我们带入第二步公式可以得到\(t^{*}=3.05505\)
第四步:由于我们知道统计量的分布情况,因此我们可以画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平查表找到临界值,并画出检验统计量的接受域和拒绝域。
例如,我们知道上述统计量服从自由度为28的t分布,代码
x = -4:0.1:4;
y = tpdf(x,28);
plot(x,y,'-')
grid on % 在画出的图上加上网格线
常见的置信水平有三个:90%,95%和99%,其中95%是三者中最为常用的。
因为我们这里是双侧检验,所以我们需要找出能覆盖0.95概率的部分t分布表:https://wenku.baidu.com/view/d94dbd116bd97f192279e94a.html
查表可知,对应的临界值为2.048,因此我们可以做出接受域和拒绝域。
第五步:看我们计算出来的检验值是落在了拒绝域还是接受域,并下结论。因为我们得到的t*=3.05505>2.048,因此我们可以下结论:
在95%的置信水平上,我们拒绝原假设H0:r=0,因此r是显著的不为0的。
p值判断法
我们得到的检验值t*=3.05505,根据这个值,我们可以计算出其对应的那个概率。
disp('该检验值对应的p值为: ')
disp((1-tcdf(3.055,28))*2)
%双侧检验的p值要乘以2
p<0.01,说明在99%的置信水平上拒绝原假设;p值>0.01,说明在99%的置信水平无法拒绝原假设;
p<0.05,说明在95%的置信水平上拒绝原假设;p>0.05,说明在95%的置信水平上无法拒绝原假设:
p<0.10,说明在90%的置信水平上拒绝原假设;p>0.10,说明在90%的置信水平上无法拒绝原假设;
小补充: \(0.5、 0.5* 、 0.5**、 0.5***\)的含义是什么?(显著性标记)
0.5*:90%的水平上显著异于0,p<0.1
0.5**:95%的水平上显著异于0,p<0.05
0.5***:99%的水平上显著异于0,p<0.01
%% 计算各列之间的相关系数以及p值
[R,P] = corrcoef(Test)
% 在EXCEL表格中给数据右上角标上显著性符号吧
P < 0.01 % 标记3颗星的位置
(P < 0.05) .* (P > 0.01) % 标记2颗星的位置
(P < 0.1) .* (P > 0.05) % 标记1颗星的位置
皮尔逊相关系数假设检验的条件
第一, 实验数据通常假设是成对的来自于正态分布的总体(需要验证)。 因为我们在求皮尔逊相关性系数以后,通常还会用t检验之类的方法来进行皮尔逊相关性系数检验,而t检验是基于数据呈正态分布的假设的。
第二, 实验数据之间的差距不能太大。 皮尔逊相关性系数受异常值的影响比较
大。
第三ÿ