分类问题——样本不均衡

数据层:通过重采样使样本空间均衡
算法层:重点学习正样本来适应现存的分类器
损失敏感方法:整合数据层和算法层的思想,假设正样本误分类的损失更大。
boosting算法:不断提高样本权重

1、数据层方法

1、对正样本随机过采样,对负样本随机下采样。
2、按照样本特征和比例来过采样正样本或下采样负样本,
虽然重采样在样本不均衡问题中经常使用,但是如何确定最好的数据分布比例呢?在一片论文中降到了,实验表明平衡的数据分布表现一般很好,但是通常不是最好的。而最好的比例在不同的数据集之间是不同的。
3、如何重采样也是一个问题。通常随机采样不是很好,发现类别的子概念,然后对每个概念分别重采样达到平衡。 现在有很多这方面的方法,但是很多技巧只在特定领域有效。

2、算法层方法

通常,普通处理样本不均衡问题的策略是选择一个合适的偏差。对于决策树,样本不均衡问题是调整叶节点的概率评估,另一个方法时新的剪枝方法。
1、支持向量机
用对不同类别采取不同的惩罚权重,调整类别便捷。
2、关联分析
改进算法需要分类器算法相关知识和应用领域的系那个管只是,尤其是对算法在样本不均衡条件下,为什么失败的原因有一个全面的理解
3、在识别单类别学习中,只是识别出目标种类即可,这种方法没有试图找到正负样本的便捷,但是试图找到围绕目标概念的边界。对于分类目的,位置对象和目标类别的相似性。两种单分类学习方法是神经网络和支持向量机。在多分类领域内的确定条件下,但分类方法比二分类方法更有效。这个方法的阈值代表两个类别的边界。一个严格的阈值意味着正样本被正确筛选。很多机器学习算法,

3 代价敏感学习

代价敏感分类认为不同的误分类类型的代价。代价矩阵表示了不同分类的代价。

1、赋予数据空间不同的权重

训练集的分布被修正为误分类的代价,和不考虑代价的正常空间相比,

2、用特殊的分类器学习算法敏感代价

在决策树背景下,建树策略用来最小化误分类代价。选择最好的属性分支,决定子树是否被剪掉。

3、用贝叶斯风险理论分配每个样本的最小风险

如果把依赖样本的代价转换为样本权重,这种方法被应用在正常的分类器,没有改变算法,被认为实在数据层进行改变。

boosting 方法

减小方差,adaboost可以件次奥偏差,adaboost给相当于上采样和下采样,都是数据层面上的。可以选择adaC2,来完成预测。数据合成算法和提升程序,这些算法引入了合成的样本数据,因此也引入了新的学习代价

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值