卡方检验(Chi-square test)是一种常用的统计方法,用于研究观察数据与期望数据之间的偏差程度。卡方检验适用于分类变量的统计分析,例如比较两组样本在不同因素下的分布情况、检验观察频数与理论频数是否存在显著差异等。
卡方检验的基本原理是比较观测频数与期望频数的差异,通过计算卡方值来判断这种差异是否显著。卡方值越大,说明观测值与期望值之间的差异越大,表明研究变量之间的相关性越强。通常将卡方值与自由度结合起来计算卡方分布的概率值(P值),如果P值小于预设的显著性水平(通常为0.05或0.01),则拒绝原假设,认为观察数据与期望数据之间的差异是显著的。
下面以一个实例来介绍卡方检验的具体应用过程。
案例背景: 一家公司进行了一次在线问卷调查,问卷包括“工作满意度”和“离职意向”两个问题。其中“工作满意度”分为“非常满意”、“比较满意”、“不那么满意”、和“不满意”四个等级,“离职意向”分为“有意愿离职”和“无意愿离职”两个等级。调查结果如下表所示:
有意愿离职 | 无意愿离职 | 总计 | |
---|---|---|---|
非常满意 | 10 | 60 | 70 |
比较满意 | 30 | 100 | 130 |
不那么满意 | 20 | 40 | 60 |
不满意 | 10 | 20 | 30 |
总计 | 70 | 220 | 290 |
问题及分析: 现在需要研究“工作满意度”与“离职意向”之间是否存在显著关联。
首先,我们需要计算每个等级中的期望频数。期望频数的计算公式为:期望频数=行总计×列总计/样本量。例如,在“非常满意”这一行中,“有意愿离职”的期望频数为70×70/290=17.07。
有意愿离职 | 无意愿离职 | 总计 | |
---|---|---|---|
非常满意 | 17.07 | 52.93 | 70 |
比较满意 | 35.52 | 94.48 | 130 |
不那么满意 | 12.41 | 47.59 | 60 |
不满意 | 4.99 | 25.01 | 30 |
总计 | 70 | 220 | 290 |
接下来,我们计算卡方值。卡方值的计算公式为:卡方值=Σ(观测频数-期望频数)²/期望频数。例如,在“非常满意”这一行中,“有意愿离职”的卡方值为(10-17.07)²/17.07=2.56。
有意愿离职 | 无意愿离职 | 总计 | 期望频数 | |
---|---|---|---|---|
非常满意 | 2.56 | 0.11 | 2.67 | 17.07 |
比较满意 | 1.29 | 0.05 | 1.34 | 35.52 |
不那么满意 | 2.14 | 0.09 | 2.23 | 12.41 |
不满意 | 2.73 | 0.11 | 2.84 | 4.99 |
总计 | 8.71 | 0.36 | 9.08 |
最后,我们需要计算P值,以判断研究变量之间是否存在显著关联。卡方分布的自由度为(行数-1)×(列数-1),在本例中自由度为3×1=3,所以我们需要查找3自由度的卡方分布表来获取P值。查表可知,当卡方值为8.71且自由度为3时,P值约为0.03。因为P值小于0.05,所以我们可以认为“工作满意度”与“离职意向”之间存在显著关联,即该公司员工的工作满意度会影响他们的离职意向。
总结一下,卡方检验是一种常用的统计方法,可以用于研究分类变量之间的关联性。在使用卡方检验时,需要先计算期望频数,然后计算卡方值,并结合自由度查找卡方分布表来计算P值,以判断观察数据与期望数据之间的偏差是否显著。