卡方检验,检验的是真实值和基于原假设得到的预测值之间样本的差异,即如果真实值和预测值之间的样本差异较小,则表示原假设成立。
在我们构建模型,进行单特征分析的时候(分析单特征与真实label之间的相关性),往往会利用到卡方值。离散变量之间的相关性检验的假设是变量之间是独立的,然后基于这个构建了卡方分布,如果他们之间确实是独立的的话,即假设成立。真实值和预测值之间的差异很小,对应的卡方值也就低,得到的结果就是变量之间是独立的;相反如果变量之间是相关的,那么就不符合原假设,预测值和真实值之间差异大,对应的卡方值也大。
上述我们提到的label是二值0-1型label。
应用场景:风控模型中分析特征变量与好坏用户的关系