相关性及相关性的显著性检验

看了一些统计学的书,关于相关性,假设检验等的问题,想写一点自己的理解

1. 相关性:

相关性是指两个变量的关联程度。两个变量的的相关性可分为正相关,负相关,不相关

  1. 简而言之,相关性是指两个变量的变化趋势的异同,相同则为正相关,反之则为负相关。(用正负号 表示)
  2. 相关程度的大小,用数字表示,(绝对值的取值范围为[0,1])
  3. 相关性不是指两个变量具有的某种关系
1.1例子1

r语言中自带的数据为例:

# 以为车辆的两种信息为例,验证其相关性
# 每加仑汽油行驶英里数(mpg) 和 汽缸数(cyl)
> mtcars$mpg
 [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3
[14] 15.2 10.4 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3
[27] 26.0 30.4 15.8 19.7 15.0 21.4
> mtcars$cyl
 [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
> cor(mtcars$mpg, mtcars$cyl)
[1] -0.852162             # 结果为负相关,数字表示相关的程度大小
1.2 例子2
# (disp) 排量(立方英寸):发动机气缸的总容积
> mtcars$disp
 [1] 160.0 160.0 108.0 258.0 360.0 225.0 360.0 146.7 140.8 167.6 167.6
[12] 275.8 275.8 275.8 472.0 460.0 440.0  78.7  75.7  71.1 120.1 318.0
[23] 304.0 350.0 400.0  79.0 120.3  95.1 351.0 145.0 301.0 121.0
>  mtcars$cyl
 [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
> cor(mtcars$disp, mtcars$cyl)
[1] 0.9020329                     # 结果为正相关,且正相关的程度很大
# 很明显气缸数量跟排量成正相关
2.相关性的显著性检验:

所谓统计假设检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合理。
也就是说,假如在一次样本实验中,两组数据的相关性为0.7,那么100次实验中,或者1000次实验中,出现相关性为0.7或者小于、大于0.7的概率是多少。从而验证我们求出的相关性的值有多大可能是符合总体数据的相关性的。

相关性的显著性检验:简单来说,就是检验这一次样本数据求得的相关性的值是否可靠,是否可以用于预测原本其真是的相关性。

2.1 例1.1的显著性检验

使用cor.test()进行显著性检验,默认方法为pearson,想要了解更多,可以参考r中的方法参数

> cor.test(mtcars$mpg, mtcars$cyl)

	Pearson's product-moment correlation

data:  mtcars$mpg and mtcars$cyl
t = -8.9197, df = 30, p-value = 6.113e-10
alternative hypothesis: true correlation is not equal to 095 percent confidence interval:-0.9257694 -0.7163171
sample estimates:
      cor 
-0.852162 

结果:

  • 首先我们探讨的问题是:两组变量是否相关,所以假设检验的零假设为:两组变量不相关(约定俗成),备择假设为:两组变量相关。
  • 一般p值给出两个显著水平:0.05:显著水平;0.01:极显著水平;p-value = 6.113e-10<0.01,达到极显著水平,也就是说应该否定零假设,得出两组变量相关的的结果。
  • p值的解析:假设总体的相关度为0,则预计在几十亿次中只会有少于一次的机会见到-0.852162 这样的样本相关度(即p=6.113e-10) 。也就是说在零假设的情况下,几十亿分之一的概率基本不会发生,所以就可以拒绝零(原)假设,接受备择假设 。
2.2 例1.2的显著性检验
> cor.test(mtcars$disp, mtcars$cyl)

	Pearson's product-moment correlation

data:  mtcars$disp and mtcars$cyl
t = 11.445, df = 30, p-value = 1.803e-12
alternative hypothesis: true correlation is not equal to 095 percent confidence interval:0.8072442 0.9514607
sample estimates:
      cor 
0.9020329 

结果:

  • 同样的分析,如2.1
  • 只是这次的p值更小,那么否定零假设的可信度也就越大。
  • 3
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值