数据挖掘概念与技术pdf_[书海游]数据挖掘概念与技术 8.6节提高分类准确率的技术...

一、综述

本节介绍了一些提高分类准确性的技巧,主要学习了三种组合分类方法(bagging、boosting、随机森林)(1-4)和一些应对不均衡数据的处理方法(过抽样、欠抽样、阈值移动、组合方法)(5)。

二、主要内容

       1、组合方法概念:将多个模型/基分类器组合在一起,创建一个改进的分类模型;对于一组待预测数据,每个基分类器分别进行分类,最终组合分类器根据各个基分类器的结果返回综合的预测结果。

       组合分类器优点:准确性优于他的基分类器;理想情况下基分类器之间几乎不相关且优于随机猜测;可多cpu并行运行。

       以下2-4节分别介绍三种组合分类方法

       2、装袋:按照不同的数据(往往通过在同一训练数据集中的多次有放回的随机抽样获取)分别训练多个不同的基分类器,组成组合分类器;对于待预测数据,分别使用基分类器进行预测,将基分类器的分类结果进行投票统计,返回综合表决。

       也可通过求平均值的方式对连续值进行预测。

       以下为伪代码:

ff135c6210a48c404bf8d93a2a3e618b.png

       3、提升:

       迭代训练多个基分类器,其中第i个分类器训练后加大被其分类错误的数据的权重,使得其更容易在第i+1个分类器随机抽取样本中被抽中,既使后续分类器更注重被之前的分类器错误分类的数据,从而建立一个互补的分类器系列。

除此之外,在使用综合分类器对测试集进行预测时,不同于装袋的统一权重投票原则,boosting算法对每一个基分类器赋予表决权重,每个分类器的表决权重与其准确率相关,其中分类器Mi的表决权重为:

3ddfe8dadee8197cb5986ba50b1209c7.png

对每个类C,其综合权重为每个投给其的分类器的权重之和,综合分类器返回综合权重最大的类。

一种常见的提升算法——AdaBoost算法伪代码如下:

360bf838bb02dd78b06c4514b13ee1d3.png

由于提升方法关注误分类的测试数据,所以存在复合模型对测试集过拟合的风险。

提升往往能够获得比装袋更高的准确率。

4、随机森林

将每个基分类器视作一棵决策树,则整个组合分类器就可被视为一个“森林”。个体决策树在每个节点使用随机选择的属性决定划分,即,每棵树都依赖于独立抽样,并与森林中所有树具有相同分布的随机向量的值。分类时,每棵树都投票并返回得票最多的类。

Forest_RI:使用随机输入选择形成的树。装袋与随机属性选择结合,在每棵树中,每个节点随机选择F个属性作为该节点划分时的候选属性,使用CART方法增长树。

Forest_RC:使用输入属性的随机线性组合。随机选择L个属性,从以[-1,1]中随机选取的数为系数相加,产生F个线性组合,并在其中搜索最优划分。这种形式的随机森林可在只有少量属性可用时用于降低个体分类器之间的关联性。

随机森林的准确率可以与Adaboost媲美,且对错误和离群点更据鲁棒性。其依赖于基分类器的实力和它们之间的依赖性,理想情况是保持分体分类器的能力而不提高相关性。

对每次划分考虑的属性数敏感。通常选取log2d+1个属性。

每次划分只考虑很少属性,在大型数据库上非常有效。给出了变量重要性的内在估计。

5、提高类不平衡数据的分类准确率

问题描述:当感兴趣的主类只有少量数据代表时会出现类不平衡问题。

存在原因:传统分类方法旨在最小化分类误差,其假定假正例和假负例的代价是相等的。

解决方法:

过抽样、欠抽样、阈值移动、组合技术

前三种不涉及模型结构的改变。

       其中:

              过抽样:复制稀有类数据,使得训练集中正数据与负数据数量相等

              欠抽样:减少非稀有类数据,使得训练集中正数据与负数据数量相等

         阈值移动:用于对给定元组返回一个连续输出值的分类器,即返回一个f(x)->[0,1]作为输出的分类器,将对于某个阈值t,满足f(X)>=t的视为正值,反之视为负值。如BP网络,朴素贝叶斯分类器等。

         组合技术:如前文,而组合分类器的各个基分类器也可以使用前算三种方法。

  实验观察表明,阈值移动和组合方法优于抽样方法。即便在非常不平衡的数据集上,阈值移动也很有效。上述方法对两类不平衡任务相对有效,在多类不平衡任务上效果不明显。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值