随机森林概念

随机森林是由许多决策树组成的模型。 该模型不仅简单地对树木的预测取平均值(我们可以称其为“森林”),还使用了两个关键概念,将其命名为random:

建造树时随机抽取训练数据点
分割节点时考虑的特征的随机子集

随机抽取训练观察结果
训练时,随机森林中的每棵树都会从总数据点随机选取训练样本学习。 样本是通过替换绘制的,称为自举,这意味着某些样本将在一棵树中多次使用。 这个想法是通过在不同的样本上训练每棵树,尽管每棵树相对于特定的训练数据集可能具有较高的方差,但总体而言,整个森林将具有较低的方差,同时不会以增加偏差为代价。

在测试时,通过平均每个决策树的预测来进行预测。 在不同的自举数据子集上训练每个学习者,然后平均预测值的此过程称为bagging,是自举聚合的缩写。

用于分割节点的特征的随机子集

随机森林中的另一个主要概念是,仅考虑所有特征的子集来拆分每个决策树中的每个节点。通常将其设置为sqrt(n_features)进行分类,这意味着,如果在每个树中的每个节点上有16个要素,则仅考虑4个随机要素来拆分该节点。

随机森林组合了数百或数千个决策树,在一组稍有不同的观测值上训练每个决策树,并在考虑有限数量特征的情况下拆分每棵树中的节点。随机森林的最终预测是通过对每棵单独的树的预测求平均而得出的

要了解为什么随机森林比单一决策树更好,请想象以下情形:您必须决定Tesla的股价是否会上涨,并且可以与十几位对公司一无所知的分析师接触。每个分析师的偏见都很低,因为他们没有任何假设,并且可以从新闻报道的数据集中学习。

这似乎是一个理想的情况,但是问题是报告除了实际信号之外还可能包含噪声。因为分析人员的预测完全基于数据(他们具有很高的灵活性),所以它们可能会被无关的信息所左右。分析人员可能会从同一数据集中得出不同的预测。而且,每位分析师的差异很大,如果给与不同的培训报告集,他们将得出截然不同的预测。

解决方案是不依靠任何个人,而是集中每一位分析师的选票。此外,就像在随机森林中一样,允许每个分析人员仅访问报告的一部分,并希望通过采样可以消除嘈杂信息的影响。在现实生活中,我们依赖多个来源,因此,决策树不仅直观,而且将它们组合在随机森林中的想法也是如此。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值