【论文笔记】CUSBoost：基于聚类的提升下采样的非平衡数据分类

yuukilp

于 2017-12-20 21:10:43 发布

阅读量3.2k

点赞数 1

分类专栏： papers notes 论文笔记文章标签：非平衡数据聚类算法机器学习分类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014686462/article/details/78841073

版权

原论文地址：CUSBoost: Cluster-based Under-sampling with Boosting for Imbalanced Classification

Abstract

普通的机器学习方法，对于非平衡数据分类，总是倾向于最大化占比多的类别的分类准确率，而把占比少的类别分类错误，但是，现实应用中，我们研究的问题，对于少数的类别却更加感兴趣。最近，处理非平衡数据分类问题的方法有：采样方法，成本敏感的学习方法，以及集成学习的方法。这篇文章中，提出了一种新的基于聚类的欠采样boosting方法，CUSBoost，它能够有效地处理非平衡数据分类问题。RUSBoost(random under-sampling with AdaBoost) 和SMOTEBoost (synthetic minority over-sampling with AdaBoost) 算法，在我们提出的算法中作为可选项。经过实验，我们发现CUSBoost算法在处理非平衡数据上能够达到state-of-art的表现，其表现优于一般的集成学习方法。

Introduction

处理非平衡类别问题的方法一般被分为两类：外部（对非平衡数据进行处理得到平衡的数据）、内部（通过降低非平衡类别数据的灵敏度来改变已有的学习算法）的方法。

而CUSBoost的处理方法是：首先把数据分开为少数类别实例和多数类别实例，然后使用K-means算法对多数类别实例进行聚类处理，并且从每个聚类中选择部分数据来组成平衡的数据。聚类的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。