随机森林RandomForest——看我以弱搏强

目录

一、是集成学习中一种典型的Bagging类型的算法(引导聚合类算法)

二、随机森林

 小小总结一下

三、SUMMARY总结 


一、是集成学习中一种典型的Bagging类型的算法(引导聚合类算法)

集成学习:指整个模型的内部是由多个弱监督模型组成,而每个弱监督模型只在某个方面表现比较好

(ok这里就可以理解为某个学生只在某一科成绩比较突出)

二、随机森林

  • “森林”指整个模型中包含了很多决策树,可以将这个包含了很多决策树的模型看成一个森林
  • “随机”指的是森林中的每棵决策树都随机的从数据集中采样以训练模型中的每棵决策树

    分别随机选取不同的数据集中不同的部分(样本随机,特征随机)当作树的训练集,当每棵树都完成训练后,我们把待测样本放到三棵树中做决策。

    因为每棵树在训练过程中“所见到”的样本不一样,即看问题的角度不同

    所以最后得到的结论也可能不同

    最后,我们将不同的结果做一个综合,就可得到随机森林最终的输出。


  •  小小总结一下

随机森林的详细训练过程:

  1.  预设模型的超参数(比如森林中有多少棵树,每棵树最多几层深度)
  2.  从完整的数据集中随机采样(取n个样本,d个特征),训练每个决策树 (这样可以保证每棵树看问题的角度都不同)

      DATASET[N*D]=>data subset[n*d]

         N,n 样本数量   D,d特征数量 

     3.输入待测样本到每棵树中,再将每棵树的结果整合

        Regression:求均值

       Classification问题:求众数MODE(找到所有输出中最多的类别当作最终的输出)

三、SUMMARY总结 

  • 优点:1.模型随机性强,不易overfit;抗噪性强,对异常点outlier不敏感(毕竟最后是整合了所有的结果的对吧~)

                  2.处理高维数据相对更快(对于每次采样,只选取原数据集中的一小部分)

                  3.RandomForest是树状结构,所以模型的可解释度高,可以告诉我们每个特征的重要性

  • 缺点:1.在随机采样在整合的训练过程会导致模型往往会忽略模型一些难以处理的样本点

                  模型往往过于General,不具备正确处理过于困难的样本的能力 

                  2.由于组成森林的每个决策树都不属于强分类器,而且随机森林在训练过程中,也不会关注难以处理的样本(for example:在分类模型中难以分类别的样本),这就导致了有很大的概率在随机森林中的每个决策树都无法对这样的样本得到正确的分类结果,这就可能会导致了最后的分类结果也非常一般

                   模型的起点高,但是天花板低(三个只擅长某一单科的学霸放在一起可能会有所进步,但对于一道极其困难的题,仍做不对) 

接下来的文章——集成学习的另一种算法Boosting

                              它会更加关注那些难以做正确的,或许可以解决现在这个问题

本文为我的学习博客,相关学习链接🔗如下:【五分钟机器学习】随机森林(RandomForest):看我以弱搏强_哔哩哔哩_bilibili

如果觉得我的文章写的还有些帮助,请给我点赞收藏(打赏~),新手小白,如有错误请各位大佬指出。

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随机森林是一种集成学习算法,它由多个决策树组成。随机森林通过随机化特征选择和样本选择的方式,构建多个决策树模型,并将它们集成为一个强分类器。 在随机森林算法中,首先从原始数据集中有放回地进行有放回抽样,形成多个训练子集。对于每个训练子集,随机森林使用CART(分类与回归树)算法建立一个决策树。建立决策树的过程中,采用随机化特征选择,即在每次划分节点时,仅考虑子集的一部分特征。这种随机化特征选择可以让每个决策树都对数据集有所差异,增加随机性,避免模型过拟合。 当所有决策树建立完成后,随机森林的分类器通过投票或者求平均值的方式来进行集成预测。对于分类问题,多数投票法是常用的集成方式。对于回归问题,可以将各个决策树的预测结果求平均值来得到最终结果。 随机森林具有以下优点:首先,它能够处理高维度的数据集,并且对缺失数据和异常数据具有较好的鲁棒性;其次,它能够自动进行特征选择,通过不同决策树之间的差异性,可以评估各个特征的重要性;此外,随机森林还可以进行并行计算,提高了训练速度。 总之,随机森林算法通过构建多个决策树进行集成学习,利用随机化特征选择和样本选择的方式,能够处理高维度数据、高效地进行特征选择,并且对于分类和回归问题都有良好的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值