集成学习之随机森林

随机森林简介

随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支–集成学习(Ensemble Learning)。随机森林用处比较广泛,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。
随机森林是一种有监督学习算法。 就像你所看到的它的名字一样,它创建了一个森林,并使它拥有某种方式随机性。 所构建的“森林”是决策树的集成,大部分时候都是用“bagging”方法训练的。 bagging方法,即bootstrap aggregating,采用的是随机有放回的选择训练数据然后构造分类器,最后组合学习到的模型来增加整体的效果

随机森林优点

  1. 具有极好的准确率
  2. 能够有效的运用到大数据集上
  3. 能够处理具有高维特征的数据样本,不需要降维
  4. 能够评估各个特征在分类问题上的重要性
  5. 在生成过程中,能够获得到内部生成的一种无偏估计
  6. 对于缺省值问题也能够获得很好的结果

随机森林缺点

  1. 在某些噪音比较大的样本集上,随机森林模型容易陷入过拟合。
  2. 取值划分比较多的特征容易对随机森林的决策产生更大的影响,从而影响拟合的模型的效果。

随机森林相关基础知识

  1. 信息是用来消除随机不确定性的东西
  2. 是用来度量不确定性的,当熵越大,事件的不确定性越大,反之越小。对于机器学习中的分类问题而言,熵越大即这个类别的不确定性更大,反之越小。
  3. 信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。

随机森林生成

每棵树的生成规则:
1.如果训练集为N,对于每棵树而言,随机且有放回的从训练集中抽取N个训练样本(这种采样方式称为bootstrap sample方法),作为该数的训练集;这样就可以做到每棵树的训练集都是不同的,但里面包含重复的训练样本。
随机采样的必要:
如果不进行随机采样,那每棵树的训练集都是一样的,最终训练的结果也都是一样的,这样就没有bagging的必要了。
有放回采样的必要:
如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树训练出来都是有很大差异的;而随机森林最后的分类取决于多棵树(弱分类器)的投票表决,这种表决应该是”求同“的。
2.如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次数进行分裂时,从这m个特征中选取最优的。
3.每棵树都尽量最大程度的生长,并且没有剪枝过程。

随机森林分类效果(错误率)的影响因素
森林中任意两棵树的相关性:相关性越大,错误率越大;
森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值