cart树随机森林matlab,数学建模 决策树&随机森林

本文详细介绍了决策树的工作原理,包括熵、信息增益和基尼系数等概念,以及如何选择最佳分裂属性。同时,讨论了信息增益的局限性和信息增益率的使用。此外,还探讨了随机森林的构建过程,如特征选择的随机性以及防止过拟合的剪枝策略。最后,提到了在实际操作中优化决策树的方法,如设置叶子节点的最小样本数。
摘要由CSDN通过智能技术生成

决策树

d18c168d9b641c413ab8e74e406e1cd8.png

决策树可以做分类、回归

数据从上往下在树中游走,叶子节点就是最终的预测值or回归值6574949f4e3507f7dd04e0c273198e94.png

a634268e1613bd591bebd62d55158bbd.png

决策属性=非叶子节点

Q:指标age、male是谁定下来的?

a98558f32f7e5503e5a1a48dbca139f3.png

7d197c633c19543329c70c2afff3d945.png

d9d3c04105b1102e4ee402a5a716953b.png

f92eb233ed20d683d0c643dc8b7ad73b.png

43d868e1006b62385583b66733ab67ba.png

熵=混乱程度

A的熵比较大,对每个类别出现的概率低,ln取负比较大,总和更大

B的熵比较小,1的概率大,ln取负比较小,总和更小

基尼系数,和熵的意义差不多,p越小,Gini越大

41f3d46ea6cb5a82a8dda5227a9bf0ec.png

----->谁当根节点是根据熵算出来的,熵下降的越快的(信息增益越大)越适合做节点

a74ea273af847baba6f14ac34562528e.png

根据天气进行,play二分类

679618f354ae1657965900e590064913.png

构建决策树,四个指标谁来当根节点--信息增益最大的

根据labei计算初始熵值=0.940

073470aee6cbc77b593f6cc065d42fa8.png

16eb4e05f2160662759988a87024b7b5.png

262091ade5278ba46f368b8cbfd3131a.png

熵下降=纯度上升,信息增益大,分类效果上升

cad2b0ac9c6518b2deb4136fb0516aa1.png

**信息增益的BUG:**ID如果也当作一个指标-->信息增益=0.9最大化,但是不适合做节点,他存在的属性很多,每个属性对应样本的个数很小,这种情况会发生信息增益很大的BUG

故使用信息增益率

fe94ebfbf42dfe87796d91140f49fbf7.png

80dcf4c32f5002b8421f88ad3899eb4e.png

信息增益率构建决策树

评价函数(损失函数)评价决策树

16c22ac63a693fcc9dfccb1cc40fe6cc.png

37818de0e9a4b37646c2e48c53ab2de1.png

高度高,分支多,效果好,会过拟合,故希望找高度最矮的树;剪枝:

1566567e57d2f870e45831754ef781a7.png

随机森林

随机:

①样本:对样本随机采样部分(有放回的采样)来建立决策树---使得某些不好的数(异常值)选不到

②特征::对特征随机采样部分(不放回的采样)来建立决策树---使得某些不好的特征(异常特征)选不到

森林:多颗决策树,共同做决策

分类,取众数

回归,取平均数

代码实操

代码来源:机器学习及其MATLAB实现-从基础到实践_炼数成金

决策树可直接运行

随机森林需要先将工具包(下图文件夹)扔到matlab/toolbox文件夹里,然后设置路径,便可运行

f921bc20ec2d74ffe9bba5979b3418b5.png

0d42c1dc492ecbbf3dc9974657850f20.png

64ef3b855fdce94c76f691da0de94189.png

优化决策树①:(设置叶子节点含有的最小样本数)54598b49d88055c93525abf023b47023.png

b3ba122597cdec4d4050c4cfdf85da53.png

优化决策树②:(剪枝)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值