一、统计检验方法
1. 卡方检验 (Chi-square Test)
-
原理:检验分类特征与二分类标签的独立性
-
公式:
其中
是观察频数,
(行合计*列合计)/总样本数
-
适用场景:分类特征 vs 二分类标签
-
注意事项:
-
要求每个单元格的期望频数 ≥5(否则需用Fisher精确检验)
-
只能检测线性相关,无法发现非线性关系
-
2. T检验 (Student's t-test)
-
原理:比较二分类标签下连续特征的均值差异
-
公式:
其中
是合并标准差,n1,n2 为两类样本量
-
适用场景:连续特征 vs 二分类标签
-
注意事项:
-
要求特征满足正态分布和方差齐性(若不满足可用Mann-Whitney U检验)
-
仅检测均值差异,可能忽略分布形状差异
-
3. 点二列相关系数 (Point-Biserial Correlation)
-
原理