非平衡数据集的机器学习常用处理方法

最新推荐文章于 2021-06-15 11:26:44 发布

离散梦

最新推荐文章于 2021-06-15 11:26:44 发布

阅读量2.5k

点赞数

分类专栏：机器学习文章标签：非平衡数据集 SMOTE

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JonyHwang/article/details/80975649

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

作者：离散梦

欢迎大家给出宝贵的建议！

非平衡数据集的机器学习常用处理方法

1.收集更多的数据

2.尝试改变性能评价标准：【当数据不平衡，准确度已经失去了它原有的意义】

（1）混淆矩阵

（2）精度

（3）召回率

（4）F1分数（权衡精度和召回率）

（5）Kappa（衡量分类精度）

（6）Roc曲线（曲线面积就是AUC）

3.重采样数据（结合正则化模型）

（1）过采样只是单纯的重复了正例（最大风险就是对正例过拟合）

（2）欠采样抛弃了大部分反例数据（可能造成偏差很大的模型）

4.生成合成数据

随机采样样本数目比较少的属性

SMOTE，合成少数类过采样技术【本算法基于“插值”来为少数类合成新的样本，存在一定盲目性】

考虑该少数类【正例】的一个样本i，其特征向量为

（1）首先从该少数类的全部T个样本中找到Xi的K（用户自行选择）个近邻（例如用欧式距离），记为

（2）然后从这k个近邻中随机选择一个样本Xi(nn)，再生成一个0到1之间的随机数，从而合成一个新样本Xi1：

（3）讲步骤2重复进行N次，从而可以合成N个新样本：。那么，对全部的T个少数类样本进行上述操作，便可为该少数类合成N个新样本【N必须是正整数】

如果样本特征是2维，每个样本都可以用一个点表示。那Xi1相当于Xi和Xi(nn)之间的一个点。相当于“插值”。

5.使用不同的算法

尝试不同的方法，决策树一般在不平衡数据集上表现的比较好。

6.尝试惩罚模型

就是添加新的惩罚项到cost函数中（比如带惩罚项的SVM），以使得小样本的类别被判断错误的cost更大，迫使模型重视小样本的数据。

7.使用不同的视角

有专门领域和算法做这个（不平衡数据集）

比如异常检测

8.尝试新的改进

把样本比较多的类别，分解为一些更多的小类别。

比如区分数字0和其他数字。可以把其他数字分为0~9类。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。