SMOTE过采样

转载自https://blog.csdn.net/keycoder/article/details/79188853

一、

SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General),SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,算法流程如下。

1、对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。

2、根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。

3、对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本 
                                   xnew=x+rand(0,1)∗|x−xn| 
 

因此,smote算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。

二、下面具体介绍如何合成新的样本
   
       设训练集的一个少数类的样本数为 T ,那么SMOTE算法将为这个少数类合成 NT 个新样本。这里要求 N 必须是正整数,如果给定的 N<1 那么算法将“认为”少数类的样本数 T=NT ,并将强制 N=1 。 考虑该少数类的一个样本 ii ,其特征向量为 xi,i∈{1,…,T}:

首先从该少数类的全部 T 个样本中找到样本 xi 的 k个近邻(例如用欧氏距离),记为 xi(near),near∈{1,…,k};
然后从这 k 个近邻中随机选择一个样本 xi(nn) ,再生成一个0 到 1 之间的随机数 ζ1 ,从而合成一个新样本 xi1 :
                                                        xi1=xi+ζ1⋅(xi(nn)−xi) 
     3. 将步骤2重复进行 N 次,从而可以合成 NN 个新样本:xinew,new∈1,…,N。

       那么,对全部的 T 个少数类样本进行上述操作,便可为该少数类合成 NT个新样本。

       如果样本的特征维数是 2维,那么每个样本都可以用二维平面上的一个点来表示。SMOTE算法所合成出的一个新样本 xi1 相当于是表示样本 xi的点和表示样本 xi(nn) 的点之间所连线段上的一个点。所以说该算法是基于“插值”来合成新样本。

三、代码实现

可以调用python imblearn包中的SMOTE函数

 

SMOTE(Synthetic Minority Over-sampling Technique)是一种过采样算法,用于处理分类问题中的类别不平衡情况。在MATLAB中,我们可以使用以下代码实现SMOTE过采样: ```matlab function [SMOTE_data, SMOTE_labels] = smote(data, labels, k, minority_class) minority_indices = find(labels == minority_class); minority_data = data(minority_indices, :); minority_size = length(minority_data); synthetic_data = zeros(k * minority_size, size(minority_data, 2)); synthetic_labels = zeros(k * minority_size, 1); for i = 1:minority_size nn_indices = knnsearch(data, minority_data(i, :), 'K', k+1); % 找到k个最近邻样本的索引(包括自身) nn_indices(nn_indices == minority_indices(i)) = []; % 去除自身的索引 for j = 1:k dif = data(nn_indices(j), :) - minority_data(i, :); % 计算差值 gap = rand(); % 随机生成0到1之间的比例 synthetic_data((i-1)*k + j, :) = minority_data(i, :) + gap * dif; % 生成合成样本 synthetic_labels((i-1)*k + j) = minority_class; % 合成样本的标签为原始类别 end end SMOTE_data = [data; synthetic_data]; % 合并原始数据和合成数据 SMOTE_labels = [labels; synthetic_labels]; % 合并原始标签和合成标签 end ``` 这段代码中,首先找到原始数据中属于少数类别的样本,然后对每个少数类别样本,找到它的k个最近邻样本。接着,根据原始样本和最近邻样本的差值,生成k个合成样本。每个合成样本的特征值由原始样本和差值的按比例加权得到,合成样本的标签与原始样本相同。随后,将原始数据和合成数据以及对应的标签进行合并,得到SMOTE过采样后的数据和标签。 通过以上的代码实现,我们可以使用MATLAB来进行SMOTE过采样处理,从而解决类别不平衡问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值