超简单随机森林介绍：如何建立，如何使用，如何衡量好坏以及如何处理数据缺失

最新推荐文章于 2024-05-29 21:27:08 发布

Fiona_ll

最新推荐文章于 2024-05-29 21:27:08 发布

阅读量5.7k

点赞数 2

分类专栏：统计学习方法统计学习:机器学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lucylove3943/article/details/87144851

版权

这篇博客和上一篇博客一样，也是我看视频的笔记，以下所有图片和例子来自于以下两个视频：

https://www.youtube.com/watch?v=J4Wdy0Wc_xQ&index=2&list=PLyeGvkJQKy7nDT5kH9S99_p51DcDRQEIR&t=0s

https://www.youtube.com/watch?v=nyxTdL_4Q-Q&index=3&list=PLyeGvkJQKy7nDT5kH9S99_p51DcDRQEIR

随机森林

随机森林是一种机器学习算法。随机森林是由很多个决策树组成的，关于什么是决策树，可以参考这篇博客：

https://blog.csdn.net/lucylove3943/article/details/86777844

决策树在预测方面的准确度不是很高，所以引入了随机森林，随机森林利用许多个决策树和在一起来做预测。

如何建立随机森林

第一步：建立Bootstrap数据集

什么是bootstrapped的数据集？怎么建立他们呢？

可以参考以下例子，假设我们现在有如图所示的训练数据：

最原始的数据一共有4个特征，分别为：是否胸痛，血液循环是否良好，动脉是否阻塞，以及体重。输出为是否有心脏病。那么如何创造bootstrap数据集呢：

数据的数量和原始数据数量相同
从原始的数据中随机选取一些，作为新的数据集
因为前两个要求，所以我们允许在新的数据集里存在重复的数据。

一个bootstrapped的数据的例子如下图：

在新的bootstrapped数据中，数据的数量和原始数据一样，随机选取了四组，其中原始数据的第四组被用了两次。

类似的，我们做很多个这样的数据集

第二步：建造决策树

根据我们创造的bootstrapped的数据集，建造决策树。

但是不是直接用所有的特征来建造决策树，而是对于每一步，都从中随机的选择一些特征，来构造决策树。

比如说，假设我们现在规定每一次选择节点的时候，只用随机选择的两个特征来计算Gini指数。

（至于如何决定选几个特征合适，之后再介绍）

下面是寻找根节点的时候，随机选择的的两个特征：血液循环是否良好，动脉是否阻塞。

最低0.47元/天解锁文章

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
超简单随机森林介绍：如何建立，如何使用，如何衡量好坏以及如何处理数据缺失

这篇博客和上一篇博客一样，也是我看视频的笔记，以下所有图片和例子来自于以下两个视频：https://www.youtube.com/watch?v=J4Wdy0Wc_xQ&amp;index=2&amp;list=PLyeGvkJQKy7nDT5kH9S99_p51DcDRQEIR&amp;t=0shttps://www.youtube.com/watch?v=nyxTdL_4Q-Q&am...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。