类别不均衡问题

问题背景

机器学习建模分类问题里,各个类别样本量差异较大时,就会出现类别不均衡问题。e.g.如果有99999个无症状病例,1个有症状病例,即使训练的学习器将所有样本识别成无症状病例,准确率也高达99.9%;但是这样的学习器没有任何价值,无任何鉴别有症状病例的价值。

常用类别均衡方法

以下假设正例样本数远小于负例样本数:

(1)欠采样
欠采样的代表做法是利用集成学习机制,将反例划分成若干个集合 供不同学习器使用。

(2)过采样
过采样不能简单地对正例样本进行重复采样,否则会导致严重的过拟合。过采样的代表性算法为SMOTE算法,即对训练集里的正例进行插值=>产生额外的正例

(3)阈值移动
通常,用分类器预测出的 y y y值与一个阈值进行比较,即 y > 0.5 y>0.5 y>0.5判别为正例,否则为负例。 y y y是正例的概率,则正例、负例可能性的比值为 y 1 − y \displaystyle\frac{y}{1-y} 1yy
如果正例和负例可能性相同,即阈值为0.5,则分类器决策规则为
y 1 − y > 1 , 预 测 为 正 例 \displaystyle\frac{y}{1-y}>1,预测为正例 1yy>1
如果正例数为 m + m^+ m+,负例为 m − m^- m,则观测几率是 m + m − \displaystyle\frac{m^+}{m^-} mm+,则分类器决策规则为
y 1 − y > m + m − , 预 测 为 正 例 \displaystyle\frac{y}{1-y}>\frac{m^+}{m^-},预测为正例 1yy>mm+

y ′ 1 − y ′ = y 1 − y × m − m + > 1 \displaystyle\frac{y^{'}}{1-y^{'}}=\frac{y}{1-y}\times\frac{m^-}{m^+}>1 1yy=1yy×m+m>1

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值