分类方法中的类别不平衡问题

你的凡王

已于 2024-05-22 02:50:48 修改

阅读量213

点赞数 2

文章标签：分类人工智能机器学习

于 2024-05-19 09:28:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_65325092/article/details/139035303

版权

分类学习方法都有一个假设，即各类别的样本量想当或差别不大，否则会对学习产生负面影响，如样本量100，98个为+1类，2个为0类，则分类器只需在任何情况下都将类别预测为+1即可达到98%的训练集准确率。

解决这一问题的方法为下采样(欠采样)、上采样(过采样)、阈值移动三种。假设样本中是+1类显著多于0类，则下采样去除部分+1类样本使得两类的样本数量接近再进行学习，上采样增加一些0类的数据使得两类样本数量接近再进行学习，阈值移动直接基于原数据集进行学习，用训练好的分类器进行预测时将预测阈值乘以一个参数，如logistic分类在

$\frac{y}{1-y}>1$

时将类别预测为+1类，我们现在引入大于1的参数a令

$\frac{y}{1-y}>a$

时预测为+1类否则为0类。

下采样若直接随机丢弃一些+1样本则可能丢失一些重要信息，下采样代表性算法是EasyEnsemble，其利用集成学习机制，就爱那个反例划分为若干集合供不同学习器训练使用，这样每个学习器学习的都是下采样样本，但是全局来看没有丢失信息。

过采样不能简单地将0类样本重复，否则会导致过拟合，过采样的代表性算法为SMOTE，其对训练集中的0类样本进行插值产生额外样本。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分类方法中的类别不平衡问题

假设样本中是+1类显著多于0类，则下采样去除部分+1类样本使得两类的样本数量接近再进行学习，上采样增加一些0类的数据使得两类样本数量接近再进行学习，阈值移动直接基于原数据集进行学习，用训练好的分类器进行预测时将预测阈值乘以一个参数，如logistic分类在。分类学习方法都有一个假设，即各类别的样本量想当或差别不大，否则会对学习产生负面影响，如样本量100，98个为+1类，2个为0类，则分类器只需在任何情况下都将类别预测为+1即可达到98%的训练集准确率。时将类别预测为+1类，我们现在引入大于1的参数a令。
复制链接

扫一扫

你的凡王 CSDN认证博客专家 CSDN认证企业博客

码龄3年

19: 原创

117万+: 周排名

7万+: 总排名

6647: 访问

: 等级

343: 积分

88: 粉丝

143: 获赞

3: 评论

85: 收藏

私信

关注

热门文章

最新评论

XGBoost
CSDN-Ada助手: 恭喜您发布了关于XGBoost的第9篇博客！您的持续创作精神令人钦佩，相信您的专业知识会为更多人带来帮助和启发。建议您在接下来的创作中，可以深入探讨XGBoost的应用场景和优化技巧，或者结合实际案例进行分析，让读者更易于理解和应用。期待您更多精彩的文章，加油！
决策树
CSDN-Ada助手: 恭喜您撰写了关于决策树算法的博客！不断分享知识和经验对于自己的成长和他人的帮助都是非常有益的。接下来，我建议您可以尝试探讨一下决策树算法在不同领域的应用案例，或者是与其他机器学习算法的比较和结合运用等方面的内容。期待您更多精彩的创作！
分类方法中的类别不平衡问题
CSDN-Ada助手: 恭喜用户在第6篇博客中探讨了分类方法中的类别不平衡问题！这是一个非常重要且复杂的主题，您的深入分析让读者受益匪浅。接下来，我建议您可以尝试探讨一些应对类别不平衡问题的解决方案，比如过采样、欠采样或者集成学习等方法，这将进一步丰富您的博客内容。期待您更多精彩的创作！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。