样本不均衡(2)

最新推荐文章于 2022-01-26 11:56:51 发布

ttxzszxy

最新推荐文章于 2022-01-26 11:56:51 发布

阅读量2.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ttxzszxy/article/details/51489499

版权

不均衡数据集的分类问题是机器学习和模式识别领域的研究热点，是对传统分类的重大挑战

Reference：http://blog.csdn.net/yelbosh/article/details/48375363

1. 重构数据集(重采样/重抽样/重取样)

过样本：增加少数类的样本来提高少数类的分类性能。

简单方法：随机复制少数类样本

改进方法：SMOTE算法; Borderline-SMOTE

欠样本：减少多数类的样本来提高少数类的分类性能。

简单方法：随机去掉某些多数类样本来减少多数类的规模。

改进方法：Condensed Nearest Neighbor Rule; Neighborhood Cleaning Rule; One sided Selection; Tomek Links等【有选择去掉对分类作用不大，远离分类边界或引起数据重叠的多数类样本】

2. 改进分类算法

代价敏感学习【困难，效果有时不明显】：调整样本分布；元代价方法；代价敏感决策

支持向量机(SVM)：对正类和负类赋予不同的代价，作为SVM的惩罚因子；对支持向量进行裁剪，通过适当牺牲多数类的分类精度来提高少数类的精度。

单类学习分类

组合方法：多个分类器组合成一个分类器。AdaBoost是提升算法的代表，给训练集数据的分布迭代加权。改进的算法还有AdaCost; RareBoost算法。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
样本不均衡(2)

不均衡数据集的分类问题是机器学习和模式识别领域的研究热点，是对传统分类的重大挑战Reference：http://blog.csdn.net/yelbosh/article/details/483753631. 重构数据集(重采样/重抽样/重取样) 过样本：增加少数类的样本来提高少数类的分类性能。简单方法：随机复制少数类样本改进方法：
复制链接

扫一扫

ttxzszxy CSDN认证博客专家 CSDN认证企业博客

码龄8年

33: 原创

106万+: 周排名

150万+: 总排名

11万+: 访问

: 等级

1146: 积分

12: 粉丝

19: 获赞

7: 评论

92: 收藏

私信

关注

热门文章

分类专栏

matlab2014 8篇
matlab命令 4篇
dp特征 1篇
cell 1篇
D-S 1篇
机器学习 3篇
基本概念 2篇
excel 1篇
宏操作 1篇
毕设
HIT_bs 20篇
工作 1篇
产品 1篇
HTML 1篇

最新评论

类内距离&类间距离
克列玛: 输入什么样的矩阵啊
类内距离&类间距离
weixin_44435353: 我也想问，可以用Sw、Sb吗
类内距离&类间距离
qq_39958146 回复于金莹: 请问你弄懂了，标准格式应该怎么设置
类内距离&类间距离
于金莹: %y --一个N维行向量，第i个元素包含X中第i个向量的label（总共有c个类标）请问y值是什么意思呢？
类内距离&类间距离
ZDY951103: 算出来的这个Sw、Sb是自己可以作为调用画ROC曲线函数的参数吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。