类别不平衡问题
分类学习方法的问题
假设正类和反类的样例数目相当,但是有时候样例数量的差别较大,比如正例样本有998个,而反例样本只有2个,此时学习方法如果一直返回正例则预测的准确度会高达 99.8% ,但是这样的学习器没有任何价值。
类别不平衡的定义
class-imbalance 是指分类任务中不同类别的训练样例的数目差别非常大的情况
假设
假定正类样本较少,反类样本较多
处理方法
从线性分类器的角度讨论,在使用
y=wTx+b
对新样本进行分类的时候,实际上是在用预测出的
y
值和一个阈值进行比较,通常在
关于 y
决策规则
y1−y>1
则预测为正例,反之为反例。
类别不平衡的处理
观测几率: m+m−
m+
表示正例数目
m−
表示反例数目
此时决策规则改为:
y1−y>m+m−
则预测为正例,反之为反例。
采样
假定正类样本较少,反类样本较多
欠采样
减少多的,这里除去一些反例样本,使得正反例样本数量接近
过采样
增加少的,这里增加一些正例样本,使得正反例样本数量接近
基于原始训练集
对样本数量不做处理,保持原状,
使用再缩放策略,
再缩放
y′1−y′=y1−y×m−m+
将上式嵌入到决策过程中。