卡方检验可以用于判断两个类别变量的相关性是否显著。在分类的应用场景中可以用卡方检验选择特征,特征与目标变量的相关性越显著说明特征越重要,预测力越强。
一、先简单介绍一下卡方检验的步骤。假设y为目标变量,取值为好和坏,x为特征变量取值为高、中、低。
1、先计算y和x的实际值列联表,如下图:
2、假设y和x不相关,总体y中坏占比=254/1831=13.87%。根据原假设,计算出假设值列联表:
3、计算卡方统计量:
其中,A是实际值,T是假设值,卡方分布的自由度=(x属性个数-1)*(y属性个数-1)=(3-1)*(2-1)&#