信效度检验

最新推荐文章于 2025-02-27 23:59:28 发布

④

最新推荐文章于 2025-02-27 23:59:28 发布

阅读量5.2k

点赞数 13

文章标签：学习

本文链接：https://blog.csdn.net/qq_44794961/article/details/139629952

版权

本文内容80%以上来自于GPT

一、什么是信度和效度

在统计学和心理测量学中，信度和效度是评估测量工具（如问卷、测试或其他评估工具）的两个重要概念。它们帮助我们理解测量工具的质量和准确性。下面详细讲解这两个概念及其检验方法。

1.信度（Reliability）

信度指的是测量工具在不同时间、不同条件下的一致性和稳定性。高信度意味着测量工具在重复测量中能够产生相似的结果。常见的信度类型包括：

重测信度（Test-Retest Reliability）：
定义：在一段时间后对同一群体使用同一测量工具，两次测量结果的一致性。
检验方法：计算两次测量结果的相关系数。高相关系数（接近1）表示高重测信度。

内部一致性信度（Internal Consistency Reliability）：
定义：内部一致性信度是评估问卷或测量工具内部各个项目（题目）之间的一致性程度。它反映了这些项目是否在测量同一潜在特质或构念。
检验方法：最常用的是Cronbach’s α系数。Cronbach’s α值越高，表示内部一致性越好。一般来说，α值大于0.7被认为是可接受的。

分半信度（Split-Half Reliability）：
定义：将测量工具分成两半，各自计算得分，两半得分之间的一致性。
检验方法：将测量工具随机分成两部分，计算两部分得分的相关系数。常用Spearman-Brown公式调整相关系数。

2.效度（Validity）

效度指的是测量工具能够真正测量其所声称要测量的内容的程度。高效度意味着测量工具准确地测量了目标特质或行为。常见的效度类型包括：

内容效度（Content Validity）：
定义：测量工具是否覆盖了要测量内容的所有重要方面。
检验方法：通常由专家评审确定，通过评估测量工具的各个项目是否全面覆盖了测量领域。

构想效度（Construct Validity）：
定义：构想效度（Construct Validity）是指测量工具（如问卷、测试）是否有效地测量了它所要测量的理论构念（construct）。构念是一种心理学概念或特质，如智力、焦虑、满意度等，通常不能直接观测到。构想效度验证测量工具在多大程度上反映了理论上定义的构念。
检验方法：包括探索性因素分析（EFA）、验证性因素分析（CFA）、以及与其他相关或不相关测量的关系（收敛效度和区分效度）。

效标效度（Criterion-Related Validity）：
定义：测量工具的结果与某一外部标准（效标）之间的关系。👈详细解释可见2.3
检验方法：包括同时效度（Concurrent Validity）和预测效度（Predictive Validity）。
同时效度：测量工具的结果与现有标准测量之间的相关性。
预测效度：测量工具的结果能够预测未来某一标准测量的能力。

面效度（Face Validity）：
定义：测量工具在表面上是否看起来能够测量目标内容。
检验方法：通常通过非正式的专家或用户评估。

总结
信度和效度是评估测量工具质量的两个重要方面。信度关注的是测量结果的一致性和稳定性，而效度关注的是测量工具的准确性和是否真正测量了目标特质。高质量的测量工具应同时具有高信度和高效度。

二、检验方法

1.信度检验——克隆巴赫系数

在part1，我们有提到3种信度。其中重测信度和分半信度的概念以及检验方法都很好理解（重测信度实际上应该也很少用到），此处不再赘述，所以重点讲述内部一致性信度的检验方法。

在这里插入图片描述

ps：需要解释的是，总分是指一个样本在多个项目（多道题目）上的得分总和，那么总分的方差就是对不同样本的总分进行方差的计算。

在这里插入图片描述

为什么如果各项目测量的是同一潜在特质，则各项目方差占总分方差的比例会较小呢？原因如下：

在这里插入图片描述

简单来说，比如一个优秀的学生和一个精神小伙相比，优秀的学生各科成绩都会比较高，总分也高；而精神小伙各科成绩都低，总分也低。那么这两个样本总分的方差就大，而各项目的方差小，分子与分母之比就小，整个克隆巴赫系数就大，表明内部一致性信度高。

2.效度检验——结构效度检验（EFA&CFA）

在part 1中，我们把效度分成了内容、构想、效标、面效度这四种，但后续询问GPT的时候，它又把内容效度放到了构想中：

在这里插入图片描述

不过问题不大，因为对于内容效度（content validity）的定义以及测量方法都是一样的，只是分类不同而已。但是构想效度（construct validity）和其中的结构效度（structural validity）不太一样（应该是包含和被包含的关系），所以此处我们重点说明结构效度。

结构效度往往通过探索性和验证性因子分析（以下简称EFA和CFA）进行检验，为什么FA能对结构效度进行检验呢？
在这里插入图片描述

在这里插入图片描述

以我的理解，比如我们的问卷有10道题，主题与员工工作的情况相关。通过EFA，我们提取出了两个公因子——因子1工作满意度和因子2工作压力，因子1与变量1-5相关，因子2与变量6-10相关。在此基础上使用CFA进行验证，确保EFA给出的模型是正确的，若有不合适的地方可进行修正。而且CFA有提供多种拟合指数，这是EFA所不具备的，通过这些拟合指数更能验证模型的正确性。

这里简单提一嘴，所谓的CFA的修正作用除了修正因子数量、各变量在各因子下的分布情况外，GPT还提到了可以添加因子之间的相关路径，以及变量之间的负荷路径；前者的意思是因子之间不是正交而是相关的，后者则是一个变量不仅加载在其所属因子上，还加载在另一个因子上（不止在一个因子上有较高的载荷）。这些情况就属于斜交旋转而非正交旋转了，此处不再赘述，以后有空在因子分析文章里专门学习。

理论上，我们在设计量表的时候就已经有所假设了（特别是专业的心理学量表？），即哪些题是用来测量哪个特质的，不过也可以再通过EFA和CFA进行验证，而且这样得到的结果是有专业方法支持的，能够得出“我们的测量工具确实能测量这些潜在因子/理论构念，我们测量工具的结构确实与预期一致。”这样的结论。

小疑问：前面提过的通过克隆巴赫系数进行内部一致性的信度检验，检验的是各题目之间是否相关，是否是用来测量同一特质的；此处的因子分析是把多个变量/题目提取出同一公因子，原理上也涉及到了相关（比如因子载荷矩阵好像是相关系数矩阵来着？），那这两种方法是否有所重复呢？

GPT老师说：

在这里插入图片描述
说白了，虽然因子分析也涉及到了相关性，但没有提供一个具体的便于观测的相关性指标。克隆巴赫系数更加直接。

3.效度检验——效标效度检验

简单来说，效标效度就是我需要确定一个独立于测量工具之外的外部指标，然后看这个外部指标和测量工具的相关性（当然不一定是相关分析，后续会介绍更多方法），来衡量这个测量工具是否可靠。比如通过几道题来了解学生的运动能力，然后再把这些题目的得分与学生体育考试成绩（这里的考试成绩就是独立的外部指标）进行相关分析，如果相关性高，就说明这些题目具有较高的效标效度。详细的解释和例子请看GPT：

在这里插入图片描述