独立性检验(Testfor Independence)根据频数来判断两类因子是彼此独立还是彼此相关的一种假设检验。假如对某一个数据集有X(值域为x1,x2)跟Y(值域为y1,y2)变量,下面是他们的频数表:


x1x2汇总
y1aba+b
y2cdc+d
汇总a+c
b+da+b+c+d

我们可以使用独立性检验来了解变量xy是否有关系,并且能较准确的给出这种判断的可靠程度。具体做法是由上面的频数表计算出随机变量K2的值:

wKiom1RNulqwfr8pAAAwlvyFM2E164.jpg

其中K方的值越大,说明变量X与变量Y有关系的可能性越大。当频数表中abcd的值都不小于5的时候,可以查阅下表来确定“XY有关系”的可信程度:

wKiom1RNuzeT3aF_AAC1hjkxO5c022.jpg


我们为什么不能只凭列联表中的数据和由其绘出的图形得出两个变量是否有关系的结论呢?这是因为由列联表可以粗略地估计出两个变量(两类对象)是否有关
(即粗略地进行独立性检验),但2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用独立性检验的方法确认所得结论在多大程度上适用于总体。