cart树随机森林matlab,数学建模决策树&随机森林

最新推荐文章于 2024-08-23 17:36:14 发布

吴敬欣

最新推荐文章于 2024-08-23 17:36:14 发布

阅读量1k

点赞数

文章标签： cart树随机森林matlab

本文详细介绍了决策树的工作原理，包括熵、信息增益和基尼系数等概念，以及如何选择最佳分裂属性。同时，讨论了信息增益的局限性和信息增益率的使用。此外，还探讨了随机森林的构建过程，如特征选择的随机性以及防止过拟合的剪枝策略。最后，提到了在实际操作中优化决策树的方法，如设置叶子节点的最小样本数。

摘要由CSDN通过智能技术生成

决策树

决策树可以做分类、回归

数据从上往下在树中游走，叶子节点就是最终的预测值or回归值

决策属性=非叶子节点

Q:指标age、male是谁定下来的？

熵=混乱程度

A的熵比较大，对每个类别出现的概率低，ln取负比较大，总和更大

B的熵比较小，1的概率大，ln取负比较小，总和更小

基尼系数，和熵的意义差不多，p越小，Gini越大

----->谁当根节点是根据熵算出来的，熵下降的越快的(信息增益越大)越适合做节点

根据天气进行，play二分类

构建决策树，四个指标谁来当根节点--信息增益最大的

根据labei计算初始熵值=0.940

熵下降=纯度上升，信息增益大，分类效果上升

**信息增益的BUG：**ID如果也当作一个指标-->信息增益=0.9最大化，但是不适合做节点，他存在的属性很多，每个属性对应样本的个数很小，这种情况会发生信息增益很大的BUG

故使用信息增益率

信息增益率构建决策树

评价函数(损失函数)评价决策树

高度高，分支多，效果好，会过拟合，故希望找高度最矮的树；剪枝：

随机森林

随机：

①样本：对样本随机采样部分(有放回的采样)来建立决策树---使得某些不好的数(异常值)选不到

②特征:：对特征随机采样部分(不放回的采样)来建立决策树---使得某些不好的特征(异常特征)选不到

森林：多颗决策树，共同做决策

分类，取众数

回归，取平均数

代码实操

代码来源：机器学习及其MATLAB实现-从基础到实践_炼数成金

决策树可直接运行

随机森林需要先将工具包(下图文件夹)扔到matlab/toolbox文件夹里，然后设置路径，便可运行

优化决策树①：(设置叶子节点含有的最小样本数)

优化决策树②：(剪枝)

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。