机器学习算法小整理之随机森林

1、工作原理:

以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择(对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性进行划分)。

Bagging:基于自助采样法,从原始数据集中采样出S个含m个训练样本的采样集即新数据集,将某个学习算法分别作用于每个数据集得到S个分类器,选择分类器投票结果中最多的类别作为最后的分类结果。bagging的特点是各个弱学习器之间没有依赖关系,可以并行拟合。由于Bagging算法每次都进行采样来训练模型,因此泛化能力很强,对于降低模型的方差很有作用。当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些。

Boosting:通过集中关注被已有分类器错分的那些数据来获得新的分类器,分类的结果是基于所有分类器的加权求和结果的,分类器的权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。boosting的特点是各个弱学习器之间有依赖关系。

自助采样法:有放回采样,给定包含m个样本的数据集,先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,经过m次随机采样操作,得到含m个样本的采样集,初始训练集中有的样本在采样集里多次出现,有的则从未出现。

对于一个样本,它在某一次含m个样本的训练集的随机采样中,每次被采集到的概率是 。不被采集到的概率为 。如果m次采样都没有被采集中的概率是

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值