机器学习笔记(X)线性模型(VI)类别不平衡问题

类别不平衡问题

分类学习方法的问题

假设正类和反类的样例数目相当,但是有时候样例数量的差别较大,比如正例样本有998个,而反例样本只有2个,此时学习方法如果一直返回正例则预测的准确度会高达 99.8% ,但是这样的学习器没有任何价值。

类别不平衡的定义

class-imbalance 是指分类任务中不同类别的训练样例的数目差别非常大的情况

假设

假定正类样本较少,反类样本较多

处理方法

从线性分类器的角度讨论,在使用 y=wTx+b 对新样本进行分类的时候,实际上是在用预测出的 y 值和一个阈值进行比较,通常在y>0.5时判为正例,否则为反例。

关于 y

y实际上表达了正例的可能性,几率 y1y 反应了正例可能性和反例可能性的比值,此时阈值 0.5 表明了分类器认为真实正、反例可能性相同,

决策规则

y1y>1
则预测为正例,反之为反例。

类别不平衡的处理

观测几率: m+m

m+ 表示正例数目
m 表示反例数目

此时决策规则改为:

y1y>m+m
则预测为正例,反之为反例。

采样

假定正类样本较少,反类样本较多

欠采样

减少多的,这里除去一些反例样本,使得正反例样本数量接近

过采样

增加少的,这里增加一些正例样本,使得正反例样本数量接近

基于原始训练集

对样本数量不做处理,保持原状,
使用再缩放策略,
再缩放

y1y=y1y×mm+

将上式嵌入到决策过程中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值