文章目录
一、对皮尔逊相关系数进行假设检验
1.步骤
第一步: 提出原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1(两个假设是截然相反的),对于以下内容的原假设是皮尔逊相关系数等于0,备择假设是皮尔逊相关系数显著异于0
第二步: 在原假设成立的条件下,利用被检测的量构造出一个符合某一分布的统计量
标注:
- 统计量相当于被检验的量的一个函数,里面不可以有其他的随机变量
- 分布一般有四种:标准正态分布, t t t分布, X 2 X^2 X2分布, F F F分布
对于皮尔逊相关系数
r
r
r而言,在满足一定条件下,可以构造统计量:
方程里的n为样本数量,是常量
第三步: 将检验的值代入统计量中,得到特定的值(检验值, t t t)
第四步: 根据统计量的分布情况,绘制该分布的概率密度函数pdf,并给定一个置信水平,根据置信水平查表寻找临界值(注意!接受域加半个拒绝域),绘制检验统计量的接受域和拒绝域,判断是否可以通过假设检验
标注:
绘制概率密度函数,可以利用matlab中的tpdf函数,
y
=
t
p
d
f
(
x
,
n
−
2
)
y=tpdf(x,n-2)
y=tpdf(x,n−2)
例如:
x=-4:0.1:4;
y=tpdf(x,28);
plot(x,y,'-')
grid on
2.p值判断法
对于第四步可以选择更好用的方法:p值判断法
双侧检验:
disp('该检验的对应p值为:')
disp((1-tcdf(t,n-2))*2)
%双侧检验的p值要乘以2
%tcdf函数:计算累计概率密度函数
p<0.01 | 说明在99%的置信水平上拒绝原假设 |
p<0.05 | 说明在95%的置信水平上拒绝原假设 |
p<0.10 | 说明在90%的置信水平上拒绝原假设 |
p>0.01 | 说明在99%的置信水平上无法拒绝原假设 |
p>0.05 | 说明在95%的置信水平上无法拒绝原假设 |
p>0.10 | 说明在90%的置信水平上无法拒绝原假设 |
二、问题汇总
1.在某些表格或者文献中,0.5,0.5*,0.5**,0.5***的含义是什么?
答: 这是显著性标记,底数0.5表示的是相关系数
- 0.5代表不显著
- 0.5*代表在置信水平为90%时显著异于零,p值小于0.1
- 0.5**表示在置信水平为95%时显著异于零,p值小于0.05
- 0.5***表示在置信水平为99%时显著异于零,p值小于0.01
2.如何计算各列之间的相关系数以及p值?
答: 一行代码:[ R R R, P P P]=corrcoef(Test)
- R返回的是相关系数表,P返回的是对应于每个相关系数的p值
3.如何绘制检验统计量的接受域和拒绝域?
答: 举例:(在Matlab中的代码)
x = -4:0.1:4;
y = tpdf(x,,28); %求t分布的概率密度函数
figure(1)
plot(x,y,'-')
grid on %在图上绘制网格线
hold on %保留原来的图,以继续绘制
tinv(0.975,28) %求出临界值2.048,这个函数是累计密度函数的反函数
plot([-2.048,-2.048],[0,tpdf(-2.048,28),'r-')
plot([2.048,2.048],[0,tpdf(2.048,28),'r-')
4.如何计算p值?
答: 举例:(在Matlab中的代码)
x = -4:0.1:4;
y = tpdf(x,,28); %求t分布的概率密度函数
figure(2)
plot(x,y,'-')
grid on %在图上绘制网格线
hold on %保留原来的图,以继续绘制
plot([-3.055,-3.055],[0,tpdf(-3.05528),'r-')
plot([3.055,3.055],[0,tpdf(3.055,28),'r-')
disp('该检验的对应p值为:')
disp((1-tcdf(3.055,28))*2)
%3.055为t值,28为自由度
5.如何标记显著符号?
答:
方法一:
(在Matlab上代码)
[R,P]=corrcoef(Test)
P<0.01 %标记3颗星的位置
(p<0.05).*(p>0.01) %标记2颗星的位置
(p<0.1).*(p>0.05) %标记1颗星的位置
%点乘很关键
根据代码的结果,可以显示满足条件点的位置,寻找矩阵中结果为1的位置,手动在Excel中输入星数。
注意: 标注***p<0.01,**p<005,*p<0.1
方法二:
(运用SPSS)
分析—相关—双变量—选中皮尔逊/双尾,标记显著性相关性—获得显著符号的图像
注意:SPSS只能标注两种数量的星,需要看表格下的标注
三、皮尔逊相关系数假设检验的条件
- 实验数据通常假设是成对的来自于正态分布的总体。(因为在求皮尔逊相关性系数以后,通常还会用t检验之类的方法进行皮尔逊相关系数检验,而t检验是基于数据呈正态分布的)
- 实验数据之间的差距不能太大。(皮尔逊相关性系数受异常值的影响比较大)
- 每组样本之间是独立抽样的。(构造t统计量时需要用到)
建模过程中,重点在于第一个条件,后两个条件可以默认成立