卡方检验是特征选择中常用的算法之一。
(1) 卡方分布(chi-square distribution):
定义:若k个独立的随机变量z1,z2,…,zk,并且符合标准正太分布N(0,1), 则这k个随机变量的平方和 为服从自由度为k的卡方分布,记为:x~x2(k)
卡方分布的期望:E(x2)=n, 方差:D(x2)=2n, n为分布的自由度
(2) 卡方检验
思想:根据样本数据推断总体的分布于期望分布是否有显著性差异
X2计算公式:x2=sum{(A-T)2/T}
其中 A为实际值,T为理论值
X2包含的信息:1.实际值与理论值偏差的绝对大小;2.差异程度与理论值得相对大小
(3)卡方检验做特征选择