随机森林RandomForest——看我以弱搏强

最新推荐文章于 2024-06-01 15:12:17 发布

图像喵

最新推荐文章于 2024-06-01 15:12:17 发布

阅读量1.3k

点赞数 4

文章标签：机器学习集成学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weiji123_/article/details/123815769

版权

目录

一、是集成学习中一种典型的Bagging类型的算法（引导聚合类算法）

二、随机森林

小小总结一下

三、SUMMARY总结

一、是集成学习中一种典型的Bagging类型的算法（引导聚合类算法）

集成学习：指整个模型的内部是由多个弱监督模型组成，而每个弱监督模型只在某个方面表现比较好

（ok这里就可以理解为某个学生只在某一科成绩比较突出）

二、随机森林

“森林”指整个模型中包含了很多决策树，可以将这个包含了很多决策树的模型看成一个森林
“随机”指的是森林中的每棵决策树都随机的从数据集中采样以训练模型中的每棵决策树

分别随机选取不同的数据集中不同的部分（样本随机，特征随机）当作树的训练集，当每棵树都完成训练后，我们把待测样本放到三棵树中做决策。

因为每棵树在训练过程中“所见到”的样本不一样，即看问题的角度不同，

所以最后得到的结论也可能不同。

最后，我们将不同的结果做一个综合，就可得到随机森林最终的输出。

小小总结一下

随机森林的详细训练过程：

预设模型的超参数（比如森林中有多少棵树，每棵树最多几层深度）
从完整的数据集中随机采样（取n个样本，d个特征），训练每个决策树（这样可以保证每棵树看问题的角度都不同）

$DATASET[N*D]=>data subset[n*d]$

N,n 样本数量 D,d特征数量

3.输入待测样本到每棵树中，再将每棵树的结果整合

Regression:求均值

Classification问题：求众数MODE（找到所有输出中最多的类别当作最终的输出）

三、SUMMARY总结

优点：1.模型随机性强，不易overfit;抗噪性强，对异常点outlier不敏感（毕竟最后是整合了所有的结果的对吧~）

2.处理高维数据相对更快（对于每次采样，只选取原数据集中的一小部分）

3.RandomForest是树状结构，所以模型的可解释度高，可以告诉我们每个特征的重要性

缺点：1.在随机采样在整合的训练过程会导致模型往往会忽略模型一些难以处理的样本点

模型往往过于General,不具备正确处理过于困难的样本的能力

2.由于组成森林的每个决策树都不属于强分类器，而且随机森林在训练过程中，也不会关注难以处理的样本（for example:在分类模型中难以分类别的样本），这就导致了有很大的概率在随机森林中的每个决策树都无法对这样的样本得到正确的分类结果，这就可能会导致了最后的分类结果也非常一般

模型的起点高，但是天花板低（三个只擅长某一单科的学霸放在一起可能会有所进步，但对于一道极其困难的题，仍做不对）

接下来的文章——集成学习的另一种算法Boosting

它会更加关注那些难以做正确的，或许可以解决现在这个问题

本文为我的学习博客，相关学习链接🔗如下：【五分钟机器学习】随机森林（RandomForest）：看我以弱搏强_哔哩哔哩_bilibili

如果觉得我的文章写的还有些帮助，请给我点赞收藏（打赏~），新手小白，如有错误请各位大佬指出。

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随机森林RandomForest——看我以弱搏强

随机森林RandomForest——看我以弱搏强原来机器学习就是这个意思~
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。