分类问题——样本不均衡

最新推荐文章于 2024-01-29 11:54:10 发布

爱跑步的george

最新推荐文章于 2024-01-29 11:54:10 发布

阅读量1.2k

点赞数

分类专栏：机器学习与数据分析

本文链接：https://blog.csdn.net/weixin_38246633/article/details/90480922

版权

机器学习与数据分析专栏收录该内容

16 篇文章 1 订阅

订阅专栏

数据层：通过重采样使样本空间均衡
算法层：重点学习正样本来适应现存的分类器
损失敏感方法：整合数据层和算法层的思想，假设正样本误分类的损失更大。
boosting算法：不断提高样本权重

1、数据层方法

1、对正样本随机过采样，对负样本随机下采样。
2、按照样本特征和比例来过采样正样本或下采样负样本，
虽然重采样在样本不均衡问题中经常使用，但是如何确定最好的数据分布比例呢？在一片论文中降到了，实验表明平衡的数据分布表现一般很好，但是通常不是最好的。而最好的比例在不同的数据集之间是不同的。
3、如何重采样也是一个问题。通常随机采样不是很好，发现类别的子概念，然后对每个概念分别重采样达到平衡。现在有很多这方面的方法，但是很多技巧只在特定领域有效。

2、算法层方法

通常，普通处理样本不均衡问题的策略是选择一个合适的偏差。对于决策树，样本不均衡问题是调整叶节点的概率评估，另一个方法时新的剪枝方法。
1、支持向量机
用对不同类别采取不同的惩罚权重，调整类别便捷。
2、关联分析
改进算法需要分类器算法相关知识和应用领域的系那个管只是，尤其是对算法在样本不均衡条件下，为什么失败的原因有一个全面的理解
3、在识别单类别学习中，只是识别出目标种类即可，这种方法没有试图找到正负样本的便捷，但是试图找到围绕目标概念的边界。对于分类目的，位置对象和目标类别的相似性。两种单分类学习方法是神经网络和支持向量机。在多分类领域内的确定条件下，但分类方法比二分类方法更有效。这个方法的阈值代表两个类别的边界。一个严格的阈值意味着正样本被正确筛选。很多机器学习算法，

3 代价敏感学习

代价敏感分类认为不同的误分类类型的代价。代价矩阵表示了不同分类的代价。

1、赋予数据空间不同的权重

训练集的分布被修正为误分类的代价，和不考虑代价的正常空间相比，

2、用特殊的分类器学习算法敏感代价

在决策树背景下，建树策略用来最小化误分类代价。选择最好的属性分支，决定子树是否被剪掉。

3、用贝叶斯风险理论分配每个样本的最小风险

如果把依赖样本的代价转换为样本权重，这种方法被应用在正常的分类器，没有改变算法，被认为实在数据层进行改变。

boosting 方法

减小方差，adaboost可以件次奥偏差，adaboost给相当于上采样和下采样，都是数据层面上的。可以选择adaC2，来完成预测。数据合成算法和提升程序，这些算法引入了合成的样本数据，因此也引入了新的学习代价

爱跑步的george

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分类问题——样本不均衡

数据层：通过重采样使样本空间均衡算法层：重点学习正样本来适应现存的分类器损失敏感方法：整合数据层和算法层的思想，假设正样本误分类的损失更大。boosting算法：不断提高样本权重1、数据层方法1、对正样本随机过采样，对负样本随机下采样。2、按照样本特征和比例来过采样正样本或下采样负样本，虽然重采样在样本不均衡问题中经常使用，但是如何确定最好的数据分布比例呢？在一片论文中降到了，实验表...
复制链接

扫一扫