评估特征与二分类标签之间相关性的方法

一、统计检验方法

1. 卡方检验 (Chi-square Test)
  • 原理:检验分类特征与二分类标签的独立性

  • 公式

     

    其中 O_{ij}是观察频数,E_{ij}= (行合计*列合计)/总样本数

  • 适用场景:分类特征 vs 二分类标签

  • 注意事项

    • 要求每个单元格的期望频数 ≥5(否则需用Fisher精确检验)

    • 只能检测线性相关,无法发现非线性关系

2. T检验 (Student's t-test)
  • 原理:比较二分类标签下连续特征的均值差异

  • 公式

     

    其中S_{p}是合并标准差,n1,n2​ 为两类样本量

  • 适用场景:连续特征 vs 二分类标签

  • 注意事项

    • 要求特征满足正态分布和方差齐性(若不满足可用Mann-Whitney U检验)

    • 仅检测均值差异,可能忽略分布形状差异

3. 点二列相关系数 (Point-Biserial Correlation)
  • 原理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值