4、特征选择(filter)：卡方检验特征筛选

VIP文章 cy^2

已于 2023-02-16 21:13:59 修改

阅读量4.2k

点赞数 2

分类专栏：特征工程

于 2022-04-19 22:33:24 首次发布

本文链接：https://blog.csdn.net/qq_34120015/article/details/124260542

版权

卡方检验特征筛选

一、卡方检验（Chi-Squared Test）基本原理
二、离散变量之间的卡方检验
三、连续变量与离散变量的卡方检验
四、python实现卡方检验

一、卡方检验（Chi-Squared Test）基本原理

通常情况下，卡方检验是针对于离散变量的独立性检验，卡方检验的零假设为两个离散变量相互独立。在特征选择中其用于标签和特征的判别，就能借此判断某特征和标签是不是独立的，如果是，则说明特征对标签的预测毫无帮助。因此在很多时候，卡方检验都是非常重要的剔除无关特征的方法。

卡方检验的基本原理
　　卡方检验是以 $x^2$ 分布为基础的一种常用假设检验方法，它的原假设H0是：观察频数与期望频数没有差别。
　　该检验的基本思想是：首先假设H0成立，基于此前提计算出 $x^2$ 值，它表示观察值与理论值之间的偏离程度。再根据 $x^2$ 分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小，说明观察值与理论值偏离程度太大，应当拒绝原假设，表示变量之间有显著差异；否则接受原假设，尚不能认为样本所代表的实际情况和理论假设有差别。至于 $x^2$ 在每个具体研究中究竟要大到什么程度才能拒绝H0，则要借助于卡方分布求出所对应的P值来确定。
卡方值的计算与意义
　　 $x^2$ 值表示观察值与理论值之间的偏离程度。计算这种偏离程度的基本思路如下。
　　设A代表某个类别的观察频数，E代表基于H0计算出的期望频数，A与E之差称为残差。
　　-显然，残差可以表示某一个类别观察值和理论值的偏离程度，但如果将残差简单相加以表示各类别观察频数与期望频数的差别，则有一定的不足之处。因为残差有正有负，相加后会彼此抵消，总和仍然为0，为此可以将残差平方后求和。
　　另一方面，残差大小是一个相对的概念，相对于期望频数为10时，期望频数为20的残差非常大，但相对于期望频数为1 000时20的残差就很小了。考虑到这一点，人们又将残差平方除以期望频数再求和，以估计观察频数与期望频数的差别。
其计算公式为
$\chi^2=\sum \frac{(A-E)^2}{E}=\sum_{i=1}^k \frac{(A_i-E_i)^2}{E_i}=\sum_{i=1}^k \frac{(A_i-np_i)^2}{np_i} (i=1，2，3，…，k)$
　　其中，Ai为i水平的观察频数，Ei为i水平的期望频数，n为总频数，pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi，k为单元格数。当n比较大时，χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。
它最初是由英国统计学家Karl Pearson在1900年首次提出的，因此也称之为Pearson $x^2$ 。

二、离散变量之间的卡方检验

2.1、提出假设

在此，通过Telco数据集来阐述卡方检验的过程,挑选原数据集的Contract字段和标签来进行卡方检验，即判断这两个离散变量是否相互独立。有如下假设：

最低0.47元/天解锁文章

cy^2

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
4、特征选择(filter)：卡方检验特征筛选

卡方检验特征筛选一、卡方检验（Chi-Squared Test）介绍1.1、提出假设1.2、采集数据1.4、设计统计量1.5、事件发生概率计算与统计推断1.6、通过设置显著性水平进行特征筛选二、应用2.1、离散变量的卡方检验2.2、连续变量的卡方检验一、卡方检验（Chi-Squared Test）介绍通常情况下，卡方检验是针对于离散变量的独立性检验，卡方检验的零假设为两个离散变量相互独立。在特征选择中其用于标签和特征的判别，就能借此判断某特征和标签是不是独立的，如果是，则说明特征对标签的预测毫无
复制链接

扫一扫