Pearson 相关分析 理论与应用

1 前提假设

使用Pearson相关分析时,需要考虑满足5个假设。

1. 两个变量都是连续变量。

2. 两个连续变量应当是配对的,即来源于同一个个体。

3. 两个连续变量之间存在线性关系,通常做散点图检验该假设。

4. 两个变量均没有明显的异常值。Pearson相关系数易受异常值影响。

5. 两个变量符合双变量正态分布。

2 验证前提假设

2.1 两个连续变量之间存在线性关系

Pearson要求两个变量之间存在线性关系。要确定是否存在线性关系,需要查看两个变量的散点图。如果散点图大致呈一条直线,说明有线性关系。但是,如果不是一条直线(如一条曲线)则没有线性关系。下图给出了线性和非线性关系的例子。

 计算Pearson相关系数时,应有类似于上述第一个散点图的线性关系。如果两变量间不存在线性关系,应考虑其他基于非线性关系的统计方法。

2.2 没有明显的异常值

异常值可能会对相关分析的结果造成很大影响。检验线性假设的散点图中,异常值的点很容易被识别出来。

如果异常值存在,应修改为正确值或进行变换去除,并在报告中指出。如不去除,也应在报告中指出。

 2.3 两个变量符合双变量正态分布

大多数软件(如SPSS)仅仅支持单变量正态分布的检验,因而通常检验两变量是否均服从正态分布,从而视为服从双变量正态分布。但这样仍有一定可能犯错,R软件包mvnormtest中的mshapiro.test函数可以用于检验双变量正态分布。

如果两个变量符合正态分布,则可以计算Pearson相关系数。如果变量不符合正态分布,有三种选择:①对不符合正态分布的变量进行数据转换,生成新变量并对其检验这些假设;②采用非参检验,如计算Spearman相关系数;③由于Pearson相关系数对不符合正态分布的情况具有一定的抗性,因此仍可尝试计算Pearson相关系数。

3 计算Pearson相关系数

Pearson相关系数的计算公式如下:

Pearson相关系数取值范围在[-1,+1],负数代表负相关,正数代表正相关,0则代表不存在相关关系。相关系数越接近0,相关关系越弱;越接近-1或+1,相关关系越强。

4 研究问题时的假设

当研究问题入手时,应持怀疑而非肯定的态度。培根曾说:“如果一个人以种种肯定的立论开抬,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态开始,那么他必将获得肯定的结论。这也是我们常常将“原假设”设定到与期望的结果相对的原因。

参考文献

Pearson相关分析-SPSS教程

双变量正态分布,即两变量均服从正态分布?

  • 7
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值