机器学习中的不平衡问题

最新推荐文章于 2022-09-10 14:36:40 发布

howardact

最新推荐文章于 2022-09-10 14:36:40 发布

阅读量813

点赞数

分类专栏： machineLearning

本文链接：https://blog.csdn.net/howardact/article/details/55504529

版权

22 篇文章 0 订阅

订阅专栏

1、修正阈值法

对于模型 $y = w^Tx+b$ 新样本的预测值y通常与阈值比较，比如 $y>0.5$ 判为正例，
$即 y 1 - y > 1 ，则预测为正例$ $即\frac{y}{1-y}>1，则预测为正例$
利用正负样本的比例调整阈值：
$y 1 - y > m + m -$ $\frac{y}{1-y}>\frac{m^+}{m^-}$
则预测为正例。
若阈值仍为1，则
$y ' 1 - y ' = y 1 - y \times m - m + > 1$ $\frac{y'}{1-y'}=\frac{y}{1-y} \times \frac{m^-}{m^+}>1$

从少数类 $S_{min}$ 中抽取数据集 $E$ ，采样的数量要大于原有少数类的数量，最终的训练集为 $S_{maj}+E$ 。

对于少数类中每一个样本 $x$ ，以欧氏距离为标准计算它到少数类样本集 $S_{min}$ 中所有样本的距离，得到其k近邻。
根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其k近邻中随机选择N个样本。
$遍历N个样本，令其中一个样本表示为：\tilde{x}_i,i=\{1,2,...,N\}，则新样本为：$ 。
$x n e w i = x + r a n d (0, 1) \times (x ~ i - x), i = {1, 2, . . ., N}$ $x_{new_i}= x+rand(0,1) \times (\tilde{x}_i-x),i=\{1,2,...,N\}$

$在Borderline-SMOTE中，若少数类样本的每个样本x_i求k近邻，记作S_{i−knn}，且S_{i−knn}属于整个样本集合S，若满足$

k 2 < | S i - k n n \cap S m a j | < k

$\frac{k}{2} < |S_{i-knn} \cap S_{maj}|<k$
则将

xi $x_i$ 加入DANGER集合，DANGER集合代表了接近分类边界的样本，将DANGER当作SMOTE的种子样本生成新样本。

从多数类 $S_{maj}$ 中随机选择少量样本 $E$ ，再合并原有少数类样本作为新的训练数据集，新数据集为 $S_{min}+E$

此算法类似随机森林的Bagging方法，具体步骤如下：
1. 把数据分成两部分，分别是多数样本和少数样本；
2. 对于多数样本 $S_{maj}$ ，通过n次有放回抽样，生成n份子集；
3. 少数样本分别和这n份样本合并训练n模型；
4. 最终结果是这n个模型预测结果的平均值。

关注

专栏目录