Random Forests 随机森林

最新推荐文章于 2024-06-26 06:30:00 发布

leidashuaige

最新推荐文章于 2024-06-26 06:30:00 发布

阅读量302

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leidashuaige/article/details/100563746

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

https://www.youtube.com/watch?v=nyxTdL_4Q-Q

Step 1

Bootstrapping 抽选数据集

或自助抽样法是一种从给定训练集中有放回的均匀抽样，也就是说，每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中。

Step 2

每次构建单个的时候树 / root node / internal node的时候只使用变量或者 column的子集

Step 3

构建了非常多的树之后，用每个树来投票

在这里插入图片描述

评价一个树

问题：

因为构建每棵树的时候，使用的是有放回的数据，每棵树都有重复的数据和没有拿到的数据，没有拿到的数据称为out-of-bag samples，使用Out-of-bag samples来评价一棵树的价值就好了

调超参数

在构建单棵树的时候，每次只拿少部分的column来构建叶子，调整每次的column数量那么就是一种调整超级参数的办法

如果有Miss data怎么办

训练数据有miss data

填值（初值）

category 填众数
num填median

趋同性取值

建立相似性metrics，就是使用树来预测的时候，如果落在了于其他sample相同的叶子上，则计数加一
最后的预测值 = 其他sample的值*相似权值之和

在这里插入图片描述

迭代

重复这个过程直到最后的结果不再变化，那么最后的值就为填值结果

测试有Miss data

category

把该数值的组合和最后的结果的组合任意排列，然后用排列的数值来当做已知数据，再带入模型里面，看最后的预测结果是否与假设结果一致，取最高的即可。

简单点，取category的各种可能性，然后预测各自的结果，取vote最高的数值即可

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Random Forests 随机森林

https://www.youtube.com/watch?v=nyxTdL_4Q-QStep 1Bootstrapping 抽选数据集或自助抽样法是一种从给定训练集中有放回的均匀抽样，也就是说，每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中。Step 2每次构建单个的时候树 / root node / internal node的时候只使用变量或者 column的子集...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。