Python | 机器学习中的卡方检验及特征选择

本文链接：https://blog.csdn.net/qq_42034590/article/details/135611383

卡方检验是分析分类数据关联性的重要统计方法。它的应用跨越各个领域，帮助研究人员了解因素之间的关系。

卡方检验

卡方检验是用于确定两个分类变量之间是否存在显著关联的统计检验。这是一个非参数检验，意味着它不对数据的分布做出任何假设。该测试基于列联表中观察到的频率和预期频率的比较。卡方检验通过查看元素之间的关系来帮助解决特征选择问题。它确定样本的两个分类变量之间的关联是否反映了它们在总体中的真实的关联。

卡方检验在分类资料统计推断中的应用广泛，包括两个率或两个构成比的比较、多个率或多个构成比的比较以及分类资料的相关分析等。在卡方检验中，如果无效假设成立，则观察频数与期望频数无差别。基于这个前提，计算出卡方值，它表示观察值与理论值之间的偏离程度。根据卡方分布及自由度，可以确定在无效假设成立的情况下获得当前统计量及更极端情况的概率。

需要注意的是，卡方检验要求最好是大样本数据。此外，卡方检验的应用场景包括但不限于：考察某无序分类变量各水平在两组或多组间的分布是否一致；检验某个分类变量各类的出现概率是否等于指定概率；检验某两个分类变量是否相互独立；检验某两种方法的结果是否一致等。

卡方分布

卡方分布（Chi-Square Distribution）是概率论与统计学中常用的一种概率分布。它是通过多个标准正态分布的随机变量的平方和来定义的。具体来说，若n个相互独立的随机变量ξ₁，ξ₂，…,ξn，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布。

卡方分布常用于假设检验和置信区间的计算，特别是在统计模型和数据分析中。此外，卡方分布还可用于检验随机变量之间是否相互独立，以及检测统计模型是否符合实际要求。

卡方分布的数学期望和方差分别是自由度n和2n，其中自由度是卡方分布的一个重要参数。当自由度很大时，卡方分布近似为正态分布。此外，卡方分布与Gamma分布有一定的关系，当Gamma变数频率为1/2时，α的2倍为卡方变数之自由度。

卡方检验的类型

有几种类型的卡方检验，每种都是为了解决特定的研究问题或场景。两种主要类型是独立性的卡方检验和卡方拟合优度检验。

独立性卡方检验：该检验评估两个分类变量之间是否存在显著关联或关系。它用于确定一个变量的变化是否独立于另一个变量的变化。当我们有两个名义型或分类变量的值计数时，应用此检验。要进行此测试，必须满足两个要求：
独立的观察和相对较大的样本量。
例如，假设我们有兴趣探索在线购物偏好和人们选择的支付方式之间是否存在关系。第一个变量是在线购物偏好的类型（例如，电子产品、服装、书籍），第二个变量是所选择的