【机器学习】随机森林

随机森林是一种基于决策树的集成学习方法,通过随机选择属性和样本构建多棵决策树来提高预测准确性。它能处理多特征数据,无需特征选择,并对缺失值有良好处理能力。然而,当特征过多时可能引发过拟合。随机森林与传统决策树的主要区别在于属性的选择方式,随机森林在属性划分时引入随机性,增加了基学习器的多样性,这也是它优于bagging的原因之一。
摘要由CSDN通过智能技术生成

1. 什么是随机森林

以决策树作为基学习器,boosting为集成方法的一种监督学习方法。

随机森林会随机选择指定数量的属性,再从这些属性中挑选出最优属性进行划分,而传统决策树则是选择最优的属性进行划分。这里的参数k控制了随机性的引入程度。如果k=d(全部属性集),则基决策树的构建=传统决策树构建。如果k=1,基决策树每个节点随机选择一个属性进行划分。一般推荐k=log2d。

2. 优缺点

优:

  1. 能够处理多特征数据
  2. 不用做特征选择,能自动确定哪些特征比较重要
  3. 容易实现,计算开销少
  4. 对缺失值数据进行估计时,随机森林是十分有效的方法,如果有很大一部分特征遗失,仍可以维持准确度。

缺:

  1. 属性取值过多容易对随机森林造成很大影响,所以在这种数据上产生的属性权值是不可信的
  2. 特征过多时,容易造成过拟合

3. 随机森林与传统决策树的区别

1  随机森林是以普通决策树作为基学习器,把多个决策树结合在一起,在训练过程中进行随机属性选择。(随机森林会随机选择指定数量的属性,再从这些属性中挑选出最优属性进行划分,而传统决策树则是选择最优的属性进行划分。)

2  传统决策树在属性划分时,选择当前节点属性集合中最优属性

4. 随机森林优于bagging的原因

1  随机森林是以普通决策

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值