机器学习算法---随机森林实现（包括回归和分类）

最新推荐文章于 2024-08-04 20:36:00 发布

Jiede1

最新推荐文章于 2024-08-04 20:36:00 发布

阅读量10w+

点赞数 51

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiede1/article/details/78245597

版权

本文详细介绍了随机森林在回归和分类问题上的应用。对于分类，随机森林基于多数表决；对于回归，它利用均方差最小化原则。随机森林算法的优势包括对输入数据的灵活性、快速训练速度、高鲁棒性和广泛的应用场景。文中还探讨了特征选择和连续、离散特征的处理方法。

摘要由CSDN通过智能技术生成

1.随机森林回归和分类的不同：

随机森林可以应用在分类和回归问题上。实现这一点，取决于随机森林的每颗cart树是分类树还是回归树。

如果cart树是分类数，那么采用的计算原则就是gini指数。随机森林基于每棵树的分类结果，采用多数表决的手段进行分类。

基尼指数（ CART算法 —分类树）
定义：基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。
即基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率
这里写图片描述
说明:

pk表示选中的样本属于k类别的概率，则这个样本被分错的概率是(1-pk)
样本集合中有K个类别，一个随机选中的样本可以属于这k个类别中的任意一个，因而对类别就加和
当为二分类是，Gini(P) = 2p(1-p)

样本集合D的Gini指数：假设集合中有K个类别，则：

这里写图片描述

如果是回归树，则cart树是回归树，采用的原则是最小均方差。即对于任意划分特征A，对应的任意划分点s两边划分成的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为：
minA,s[minc1∑

最低0.47元/天解锁文章

关注

51
点赞
踩
541

收藏

觉得还不错? 一键收藏
18
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 18

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。