问题背景
机器学习建模分类问题里,各个类别样本量差异较大时,就会出现类别不均衡问题。e.g.如果有99999个无症状病例,1个有症状病例,即使训练的学习器将所有样本识别成无症状病例,准确率也高达99.9%;但是这样的学习器没有任何价值,无任何鉴别有症状病例的价值。
常用类别均衡方法
以下假设正例样本数远小于负例样本数:
(1)欠采样
欠采样的代表做法是利用集成学习机制,将反例划分成若干个集合 供不同学习器使用。
(2)过采样
过采样不能简单地对正例样本进行重复采样,否则会导致严重的过拟合。过采样的代表性算法为SMOTE算法,即对训练集里的正例进行插值=>产生额外的正例。
(3)阈值移动
通常,用分类器预测出的
y
y
y值与一个阈值进行比较,即
y
>
0.5
y>0.5
y>0.5判别为正例,否则为负例。
y
y
y是正例的概率,则正例、负例可能性的比值为
y
1
−
y
\displaystyle\frac{y}{1-y}
1−yy。
如果正例和负例可能性相同,即阈值为0.5,则分类器决策规则为
y
1
−
y
>
1
,
预
测
为
正
例
\displaystyle\frac{y}{1-y}>1,预测为正例
1−yy>1,预测为正例
如果正例数为
m
+
m^+
m+,负例为
m
−
m^-
m−,则观测几率是
m
+
m
−
\displaystyle\frac{m^+}{m^-}
m−m+,则分类器决策规则为
y
1
−
y
>
m
+
m
−
,
预
测
为
正
例
\displaystyle\frac{y}{1-y}>\frac{m^+}{m^-},预测为正例
1−yy>m−m+,预测为正例
即
y
′
1
−
y
′
=
y
1
−
y
×
m
−
m
+
>
1
\displaystyle\frac{y^{'}}{1-y^{'}}=\frac{y}{1-y}\times\frac{m^-}{m^+}>1
1−y′y′=1−yy×m+m−>1