数据挖掘算法-----bagging集成----随机森林

bagging(bootstrap aggregating),套袋法,是一种集成学习算法,采用随机有放回的选择训练数据然后构造分类器,最后进行组合。例如随机森林。

算法流程:

  • 从原始样本集中抽取训练集,每轮从原始样本集中使用bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽到,有些样本可能一次都没有被抽中),共进行k轮抽取,得到k个训练集。(训练集相互独立)
  • 每次使用一个训练集得到一个模型,k个训练集则得到k个模型
  • 对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。

随机森林模型

随机森林算法就是使用bagging方法对多个决策树进行集成的一种算法,即采用随机投票机制。

生成方法

  • 从样本集中通过重采样的方式产生n个样本;
  • 假设样本的特征数目为a,对n个样本选择a中的k个特征,用建立决策树的方式获得最佳分割点,重复m次,产生m棵决策树;
  • 使用多数投票机制进行预测;

算法优点:

  • 具有极高的准确率;
  • 随机性的引入,使得随机森林不容易过拟合,并有很好的抗噪声能力;
  • 能处理很高维度的数据,并且不用做特征选择;
  • 技能处理离散型数据,也能处理连续型数据,数据无需规范化;
  • 训练速度快,可以得到变量的重要性排序;
  • 容易实现并行化;

算法缺点:

  • 随机森林中的决策树的个数很多时,训练需要的空间和时间较大;
  • 随机森林模型还有许多不好解释的地方,算是黑盒模型;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值