处理非均衡问题的数据抽样方法

最新推荐文章于 2023-03-16 23:19:02 发布

tianguiyuyu

最新推荐文章于 2023-03-16 23:19:02 发布

阅读量490

点赞数

分类专栏： python与机器学习

本文链接：https://blog.csdn.net/tianguiyuyu/article/details/80340590

版权

python与机器学习专栏收录该内容

57 篇文章 7 订阅

订阅专栏

一种针对非均衡问题调节分类器的方法，就是对分类器的训练数据进行改造。这可以通
过欠抽样（ undersampling ）或者过抽样（ oversampling ）来实现。过抽样意味着复制样例，而欠
抽样意味着删除样例。不管采用哪种方式，数据都会从原始形式改造为新形式。抽样过程则可以
通过随机方式或者某个预定方式来实现。
通常也会存在某个罕见的类别需要我们来识别，比如在信用卡欺诈当中。如前所述，正例类
别属于罕见类别。我们希望对于这种罕见类别能尽可能保留更多的信息，因此，我们应该保留正
例类别中的所有样例，而对反例类别进行欠抽样或者样例删除处理。这种方法的一个缺点就在于
要确定哪些样例需要进行剔除。但是，在选择剔除的样例中可能携带了剩余样例中并不包含的有
价值信息。
上述问题的一种解决办法，就是选择那些离决策边界较远的样例进行删除。假定我们有一个
数据集，其中有 50 例信用卡欺诈交易和 5000 例合法交易。如果我们想要对合法交易样例进行欠抽
样处理，使得这两类数据比较均衡的话，那么我们就需要去掉 4950 个样例，而这些样例中可能包
含很多有价值的信息。这看上去有些极端，因此有一种替代的策略就是使用反例类别的欠抽样和
正例类别的过抽样相混合的方法。
要对正例类别进行过抽样，我们可以复制已有样例或者加入与已有样例相似的点。一种方法
是加入已有数据点的插值点，但是这种做法可能会导致过拟合的问题。