目录
一、是集成学习中一种典型的Bagging类型的算法(引导聚合类算法)
一、是集成学习中一种典型的Bagging类型的算法(引导聚合类算法)
集成学习:指整个模型的内部是由多个弱监督模型组成,而每个弱监督模型只在某个方面表现比较好
(ok这里就可以理解为某个学生只在某一科成绩比较突出)
二、随机森林
- “森林”指整个模型中包含了很多决策树,可以将这个包含了很多决策树的模型看成一个森林
- “随机”指的是森林中的每棵决策树都随机的从数据集中采样以训练模型中的每棵决策树
分别随机选取不同的数据集中不同的部分(样本随机,特征随机)当作树的训练集,当每棵树都完成训练后,我们把待测样本放到三棵树中做决策。
因为每棵树在训练过程中“所见到”的样本不一样,即看问题的角度不同,
所以最后得到的结论也可能不同。
最后,我们将不同的结果做一个综合,就可得到随机森林最终的输出。
-
小小总结一下
随机森林的详细训练过程:
- 预设模型的超参数(比如森林中有多少棵树,每棵树最多几层深度)
- 从完整的数据集中随机采样(取n个样本,d个特征),训练每个决策树 (这样可以保证每棵树看问题的角度都不同)
N,n 样本数量 D,d特征数量
3.输入待测样本到每棵树中,再将每棵树的结果整合
Regression:求均值
Classification问题:求众数MODE(找到所有输出中最多的类别当作最终的输出)
三、SUMMARY总结
- 优点:1.模型随机性强,不易overfit;抗噪性强,对异常点outlier不敏感(毕竟最后是整合了所有的结果的对吧~)
2.处理高维数据相对更快(对于每次采样,只选取原数据集中的一小部分)
3.RandomForest是树状结构,所以模型的可解释度高,可以告诉我们每个特征的重要性
- 缺点:1.在随机采样在整合的训练过程会导致模型往往会忽略模型一些难以处理的样本点
模型往往过于General,不具备正确处理过于困难的样本的能力
2.由于组成森林的每个决策树都不属于强分类器,而且随机森林在训练过程中,也不会关注难以处理的样本(for example:在分类模型中难以分类别的样本),这就导致了有很大的概率在随机森林中的每个决策树都无法对这样的样本得到正确的分类结果,这就可能会导致了最后的分类结果也非常一般
模型的起点高,但是天花板低(三个只擅长某一单科的学霸放在一起可能会有所进步,但对于一道极其困难的题,仍做不对)
接下来的文章——集成学习的另一种算法Boosting
它会更加关注那些难以做正确的,或许可以解决现在这个问题
本文为我的学习博客,相关学习链接🔗如下:【五分钟机器学习】随机森林(RandomForest):看我以弱搏强_哔哩哔哩_bilibili
如果觉得我的文章写的还有些帮助,请给我点赞收藏(打赏~),新手小白,如有错误请各位大佬指出。