伪相关、伪关系与中介变量——统计名词中的迷思

伪相关、伪关系与中介变量——统计名词中的迷思
转载 2016-11-02 19:00:53
标签:杂谈
这篇文章造福那些记不清统计基础概念的人。如果对标题中的三个名词有所疑惑,那么这篇文章可能会对你有所帮助。内容多数搬运自英文维基,具体出处不再标注,可以进入文末reference部分自行查看。

伪相关
又称虚假相关。许多人对这一概念的认识可能与某度百科中的解释相同​:

“在自然界中存在两种相关现象, 除了真正的相关外, 还有一种相关叫伪相关。如太阳落山和月亮升起并没有什么因果关系, 它只是地球自转的反映, 但这两种现象确实是相关的, 太阳落山的时候月亮正好升起,这就叫做伪相关。”总结某度的观点,由同一原因的引起的两种不相关现象间的关系即为伪相关(图1)。这页百科言简意赅,一如既往地没有任何出处。
在这里插入图片描述

图1
然而遗憾的是,这种对虚假相关的定义虽然符合常识,但并非正规的统计定义。伪相关(Spurious correlation)​的定义最早由Karl Spearman提出,用以描述两组由绝对测量值转换而来的比例数据之间的相关,如百分比、千分比等。Spearman举了一个简单的例子:x, y, z为三组彼此间不相关的数据,但将前两组数据与z相比后,将得出x/z与y/z中存在显著相关(如图2)。在另一张图(图3)中,我们以蓝色和红色分布标示较大或较小的分母z,会发现z较大的情况下,x/z与y/z较小,分布于左下,而较小的z对应着数值更大的x/z与y/z,可以说作为分母的z本身的影响,造成了x/z与y/z之间的线性分布,即使这三组数据间不存在任何关系。

​在此我们了解到伪相关是指一种狭义的相关现象,而汉语民间语境中的伪相关,更多指的是另一统计术语“伪关系”。
在这里插入图片描述

图2
在这里插入图片描述
图3

伪关系
伪关系(spurious relationship),又称虚假关系,顾名思义是虚假的“关系”,但此处的关系指的是因果,而非相关,即两因素间本不存在因果关系,却被误认为存在。这种错误出现的原因包括忽略了第三方潜在因素的影响,如前文介绍伪相关的例子,地球自转对太阳落山与月亮上山的影响。严格意义上说,因为伪关系描述的是因果,如两事物间的本身不被认为有因果关系,那也不会是伪关系。根据一些学者的说法,伪关系是相关向因果迈进的必经阶段,排除了伪关系因素的相关研究才可能进一步探索因果关系。

对于伪关系的剔除目前主要有两种方法:实验与纯统计检验。前者通过尽可能控制其它潜在影响因素,操纵其中某一变量并观测另一变量的变化来明确两者间的关系;后者则更多应用于一些无法付诸实验而采用观测数据的学科,如经济学。

在这些无法通过实验操纵变量的学科​中,研究者们常常使用观测数据来建立因果模型,并利用统计方法排除伪相关的可能。例如,多元线性回归中,伪关系的排除是通过囊括各种可能的相关因子来实现的。在y=a0+a1x1+a2x2+…+akxk+e中,k为自变量数目,e为误差项。在假设x不受y的影响的前提下,可建立回归系数a不为零的零假设。如在假设检验中,零假设被推翻,备择假设成立,则表明x能影响y,两者间存在因果关系;相反,如零假设成立,则表明x并不能对y产生影响。此处的因果是一种间接因果关系( contributory causality),即a不为零时,x的变化必然导致y的变化,除非其它回归效应或误差项恰好抵消了它的变化,为此x的变化并非y变化的充分条件。同样,x的变化也并非y变化的必要条件,其它回归项或误差项的变化同样可能造成y值的改变。为了排除伪关系,即一个隐藏的第三方同时对自变量与因变量造成影响的情况,多元线性回归可以将其它相关的变量作为回归因子与解释性变量(regressors /explanatory variables)囊括到模型中,因为它对因变量的影响会被直接归入回归方程中,为此不会被误认为是自变量的作用(图4)。

在这里插入图片描述
图4

中介变量
之所以把中介变量和以上两个名词一起讨论,是因为它们在形式与内容上存在着诸多相似之处(图5)。

在这里插入图片描述
图5
如上图所示,左右两张图分别为伪关系与中介变量关系:前者是某一变量同时对两个本不相干的变量施加影响,造成后两个变量间相关的假象;后者则是自变量通过中介变量而对因变量施加影响的过程。但两者的共同点在于​都涉及了三个变量,并以三角形的方式呈现。此外两者均描述了因果关系。但除了伪关系在汉语语境中常与伪相关混淆外,中介关系同样也容易被误认为相关,原因在于:

a. 中介关系的研究常常是非实验研究,这就意味着获取的数据事实上并非操作的结果,而是相关​数据。但尽管如此,中介关系的研究就是建立在假定两变量存在因果关系的前提下,从结果上,描述的也是非对称的函数关系;

b. 路径分析是描述中间关系最常用的方式,其中不同变量间的路径系数,即标准回归系数,等于两变量间的相关系数。也容易让人产生其描述相关关系的错觉。​

最后,需要提醒的是,相关关系是对称而无方向的,A与B的相关与B与A的相关完全一致。与此相对,因果关系则是单向的,不对称的。这是两者间的根本区别。

总结
在本文的结尾,请再一起来回顾一下本篇中的三个名词:

伪相关:​两组比例数据间出现的虚假高相关;

伪关系:​两变量共同受第三因素影响而呈现虚假相关性,从而被推断存在因果关系的现象;

中介变量关系:研究自变量,因变量及中介变量间因果关系的情形,在形式和数据处理上和相关研究​有相似之处。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
【优质项目推荐】 1、项目代码均经过严格本地测试,运行OK,确保功能稳定后才上传平台。可放心下载并立即投入使用,若遇到任何使用问题,随时欢迎私信反馈与沟通,博主会第一时间回复。 2、项目适用于计算机相关专业(如计科、信息安全、数据科学、人工智能、通信、物联网、自动化、电子信息等)的在校学生、专业教师,或企业员工,小白入门等都适用。 3、该项目不仅具有很高的学习借鉴价值,对于初学者来说,也是入门进阶的绝佳选择;当然也可以直接用于 毕设、课设、期末大作业或项目初期立项演示等。 3、开放创新:如果您有一定基础,且热爱探索钻研,可以在此代码基础上二次开发,进行修改、扩展,创造出属于自己的独特应用。 欢迎下载使用优质资源!欢迎借鉴使用,并欢迎学习交流,共同探索编程的无穷魅力! 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值