目录
一、理论依据
【基本思想】
列联表(contingency table)也称交叉表(crosstab),是由两个分类变量交叉分类后得到的频数分布表。列联表分析是通过频数交叉表来讨论两个或多个分类变量之间是否存在关联,其基本思想与假设检验基本一致。首先,建立一个零假设,两个变量之间是没有关联(独立)的,然后进行卡方检验。卡方统计量计算公式如下:
列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量间是否存在相关性进行检验。在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系。列联表分析经常用来分析问卷调查的数据,可以比较好地反映出两个因素之间有无关联性,两个因素与现象之间的相关关系。
【实验目的】
1.了解列联表的构造。
2.准确理解列联表中卡方分析的方法原理。
3.准确理解列联表各种相关性测量统计量的构造原理。
4.熟练掌握列联分析的SPSS操作。
二、实验内容
众所周知,以往的中国高等教育是严进宽出,高考时千军万马过独木桥,竞争之激烈足以用残酷来形容。可真进了大学,学生们往往认为如果不出大的意外都可以顺利毕业,眼下的情形已经有所改变但仍存在令人担忧的问题。高等学校普遍大规模扩招,严进变成宽进,宽出依然是宽出。究竟应该是严进宽出,还是应该宽进严出呢,提倡严进宽出者认为,高等教育毕竟不是基础教育,过低的进入门槛,将降低高等教育的质量,提供高等教育的高校和教师往往都是稀缺资源,从资源合理配置的角度上看,严进宽出是必然选择,但提倡严进宽出者认为,高等教育实行宽进严出,可以使更多人获得接受高等教育的机会,随着终身教育理念的深入人心,高等教育应以培养和造就大众为己任。放宽入学限制,而通过把好出口关来保证教育的质量,那么作为问题中的两个最为直接的当事人,学生与老师,他们对此问题的看法又是如何呢,为更深入的探讨这个问题,某高校组织了专题调研小组,分别就100名学生和100名老师询问了他们对此问题的看法,获得了第一手数据资料。该数据资料包含人群和态度两个定类变量的200个观测。变量人群有两个取值,0=学生,1=老师.变量态度有两个取值,0=支持严进宽出,1=支持宽进严出(参见数据集"data9-1.save")
三、操作步骤
1. 编制交叉分布表
1. 打开数据集“data9-1.sav”,选择菜单:【Analyze】→【Descriptive Statistics】→【Crosstabs】。
图1-1:选择菜单步骤
2. 弹出如图1-2所示的“Crosstabs”对话框,分别选择人群[rows]和态度[columns]进入“Row(s)”和“Column(s)”框中,并选择“Display clustered bar charts”选项。
图1-2:“Crosstabs”对话框
3. 点击“Cells”按钮,弹出如图1-3所示的对话框,并在“Counts”框下选择“Observed”选项:在“Percentages”框下选择“Column”选项。
图1-3:“Cells”对话框
4. 点击【Continue】→【OK】,系统输出交叉频数分布的描述结果如下图所示。
表1-1:交叉频数分布输出结果
Case Processing Summary | ||||||
Cases | ||||||
Valid | Missing | Total | ||||
N | Percent | N | Percent | N | Percent | |
人群 * 态度 | 200 | 100.0% | 0 | 0.0% | 200 | 100.0% |
表1-2:交叉频数分布输出结果
人群 * 态度 Crosstabulation | |||||
态度 | Total | ||||
支持严进宽出 | 支持宽进严出 | ||||
人群 | 学生 | Count | 43 | 57 | 100 |
% within 态度 | 38.7% | 64.0% | 50.0% | ||
老师 | Count | 68 | 32 | 100 | |
% within 态度 | 61.3% | 36.0% | 50.0% | ||
Total | Count | 111 | 89 | 200 | |
% within 态度 | 100.0% | 100.0% | 100.0% |
2. 观察分析输出结果
从上述图表描述中可以看出,老师与学生之间关于此问题的看法是存在差异的。支持严进宽出的老师占61.3%,学生占38.7%;支持宽进严出的老师占36.0%,学生占64.0%。
3.卡方检验和相关性测量
- 在如图1-2所示的“Crosstabs”对话框中点击“Statistics”按钮,弹出如图1-4所示的对话框。
- 在此对话框中选择“Chi-square”选项和“Nominal”框下的“Contingency coefficient”和“Phi and Cramer's V”选项。
图1-4:“Statistics”对话框
3. 点击【Continue】→【OK】,系统输出卡方检验与相关性测量的结果在后文中有介绍。
4.做出统计决策
根据事先给定的显著性水平和系统输出的检验统计量的P值,可得出老师与学生对此问题看法是否一致的统计推断。
四、结果分析
表1-1:案例处理摘要表
Case Processing Summary | ||||||
Cases | ||||||
Valid | Missing | Total | ||||
N | Percent | N | Percent | N | Percent | |
人群 * 态度 | 200 | 100.0% | 0 | 0.0% | 200 | 100.0% |
表1-1是案例处理摘要表,给出了数据的有效个案值(200)、缺失值(0)及个案总计(200),及分别占比情况。
表1-2:交叉频数分布输出结果
人群 * 态度 Crosstabulation | |||||
态度 | Total | ||||
支持严进宽出 | 支持宽进严出 | ||||
人群 | 学生 | Count | 43 | 57 | 100 |
% within 态度 | 38.7% | 64.0% | 50.0% | ||
老师 | Count | 68 | 32 | 100 | |
% within 态度 | 61.3% | 36.0% | 50.0% | ||
Total | Count | 111 | 89 | 200 | |
% within 态度 | 100.0% | 100.0% | 100.0% |
表1-2给出了人群和态度两变量的交叉表,其中“计数”行给出了实际频数,“占比”行给出了在不同态度人群中老师和学生占比情况,“总计”行给出了不同态度人群的计数情况。从两种态度对应的人群所占比例来看,在支持严进宽出人群中,学生和老师的比例分别为38.7%和61.3%;在支持宽进严出人群中,学生和老师的比例分别为64.0%和36.0%。由此可见,学生大多以能进学校为目的,老师以帮助学生尽早毕业为目的。
表1-3:卡方检验输出结果
Chi-Square Tests | |||||
Value | df | Asymptotic Significance (2-sided) | Exact Sig. (2-sided) | Exact Sig. (1-sided) | |
Pearson Chi-Square | 12.653a | 1 | .000 | ||
Continuity Correctionb | 11.661 | 1 | .001 | ||
Likelihood Ratio | 12.797 | 1 | .000 | ||
Fisher's Exact Test | .001 | .000 | |||
Linear-by-Linear Association | 12.590 | 1 | .000 | ||
N of Valid Cases | 200 | ||||
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is 44.50. | |||||
b. Computed only for a 2x2 table |
卡方检验的原假设设定:人群与态度无关。当卡方检验显著均 < 0.05时,可以拒绝原假设,得出结论:两变量之间有显著关系;反之,无显著关系。且期望频数不能小于5,若小于5,列联分析失真。该情况下,可以通过“精确检验”进一步分析。
表1-3中给出了人群和态度相关性的卡方检验结果,其中皮尔逊卡方的统计量为12.653,自由度为1,P值0.000 < 0.05,因此拒绝原假设,即认为人群和态度是显著相关的;似然比卡方统计量为12.797,自由度为1,P值0.000 < 0.05,因此两种卡方检验的结论一致。线性关联卡方检验适用于两个连续变量情形,在本例中不适用,因此不做分析。
表1-4:相关性测量输出结果
Symmetric Measures | |||
Value | Approximate Significance | ||
Nominal by Nominal | Phi | -.252 | .000 |
Cramer's V | .252 | .000 | |
Contingency Coefficient | .244 | .000 | |
N of Valid Cases | 200 |
表1-4中给出了人群和态度的相关性测量结果,其中Phi的统计量为-0.252,P值0.000 < 0.05,因此拒绝原假设,即认为人群和态度是显著相关的;V统计量为0.252,P值0.000 < 0.05,即认为人群和态度是显著相关的;C系数统计量为0.244,P值0.000 < 0.05,因此三种相关性测量检验的结论一致。
图1-5:交叉频数条形图
最后给出交叉频数条形图。从条形图的形状来看,学生和老师的图形形状恰恰相反,可见:在对高等教育的入学限制上,学生和老师产生了不同的看法。另一方面条形图也从直观上印证了前面交叉表的分析及卡方相关性测量的结论正确性。