卡方检验特征筛选
一、卡方检验(Chi-Squared Test)基本原理
通常情况下,卡方检验是针对于离散变量的独立性检验,卡方检验的零假设为两个离散变量相互独立。在特征选择中其用于标签和特征的判别,就能借此判断某特征和标签是不是独立的,如果是,则说明特征对标签的预测毫无帮助。因此在很多时候,卡方检验都是非常重要的剔除无关特征的方法。
卡方检验的基本原理
卡方检验是以 x 2 x^2 x2分布为基础的一种常用假设检验方法,它的原假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出 x 2 x^2 x2值,它表示观察值与理论值之间的偏离程度。再根据 x 2 x^2 x2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝原假设,表示变量之间有显著差异;否则接受原假设,尚不能认为样本所代表的实际情况和理论假设有差别。至于 x 2 x^2 x2在每个具体研究中究竟要大到什么程度才能拒绝H0,则要借助于卡方分布求出所对应的P值来确定。
卡方值的计算与意义
x 2 x^2 x2值表示观察值与理论值之间的偏离程度。计算这种偏离程度的基本思路如下。
设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
-显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
其计算公式为
χ 2 = ∑ ( A − E ) 2 E = ∑ i = 1 k ( A i − E i ) 2 E i = ∑ i = 1 k ( A i − n p i ) 2 n p i ( i = 1 , 2 , 3 , … , k ) \chi^2=\sum \frac{(A-E)^2}{E}=\sum_{i=1}^k \frac{(A_i-E_i)^2}{E_i}=\sum_{i=1}^k \frac{(A_i-np_i)^2}{np_i} (i=1,2,3,…,k) χ2=∑E(A−E)2=i=1∑kEi(Ai−Ei)2=i=1∑knpi(Ai−npi)2 (i=1,2,3,…,k)
其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。
它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson x 2 x^2 x2。
二、离散变量之间的卡方检验
2.1、提出假设
在此,通过Telco数据集来阐述卡方检验的过程,挑选原数据集的Contract字段和标签来进行卡方检验,即判断这两个离散变量是否相互独立。有如下假设:
H 0 : C o n t