卡方检验是一种统计量的分布,在零假设成立时近似服从卡方分布的假设检验。
卡方检验可用于确定观察到的字符频率的整体集合,是否与预期的字符频率异常不同(与正常的随机变化相比)。
历史
在十九世纪,统计分析方法主要被用于生物数据分析。当时主流意见认为正态分布普遍适用于此类数据,例如乔治·比德尔·艾里爵士以及梅里曼教授,而卡尔·皮尔森在他1900年的论文中就针对了他们的研究数据作出了指正。
直到十九世纪末期,皮尔森指出了部分数据具有明显的偏态,正态分布并不是普遍适用。为了更好地对这些观察数据进行建模,皮尔森在1893年至1916年发表的系列文章中提出了一个包含正态分布以及众多偏态分布的连续概率分布族——皮尔森分布族。
同时,他指出数据统计分析的步骤应该是在从皮尔森分布族中选取合适的分布来进行建模后,使用拟合优度检验技术来评价模型和实验数据间的拟合优度。
公式
其中o代表观察频数,E代表预期频数,计算结果为卡方统计值,表示预期频数与观察频数的差距。