机器学习(十):随机森林与Bagging

随机森林

确保了解决策树,决策树

子树:从原数据集中有放回的选择相同数量(和原数据集数量相同)样本,并选择部分属性,以选择的样本和属性进行CART决策树构建

随机森林就是并行的构建T个子树的过程。
构建完毕后,对于一个预测数,使用构建好的T个子树进行预测,取最多的预测结果作为随机森林的预测结果。

完毕,以上就是随机森林的梗概。

这里对几个问题进行阐述:

  • 为什么要有放回的抽样
    如果不是有放回的抽样,那么随机性就只是表现在了属性上,有放回的抽样是为了使得多个样本间既有一定的关联又有一定的差异

  • 属性的数量如何选择
    一般来说,每棵树选择的属性数量= log2N

  • 需不需要剪枝
    不需要,相反,我们要使得每棵树尽可能充分的分裂,因为本身在选择属性和样本时就带了一定的随机性,因此在构建单个决策树时会减小过拟合

Bagging

Bagging(一般译为装袋)又称自助聚集(boot strap aggregating),是一种从样本集有放回的抽样技术,目的是获得n个不同的训练集。使用这些训练集训练出的分类器之间具有一定的差异,然后在通过服从多数原则来对数据进行预测,可以达到准确率高于任何一个单个分类器的效果。
通过一个例子来说明bagging的作用:
摘自机器学习(周志华)

即主旨即在于单分类器的好而不同,好是指正确率应高于50%,不同是指每个分类器针对不同的样本子类。

随机森林即是bagging的绝佳应用,通过有放回的抽样和属性集的选择来达到每个分类器的不同。

关于bagging降低方法:为什么说bagging是减少variance,而boosting是减少bias?

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值