gini系数 决策树_贪心学院 机器学习特训营 第四周 决策树与随机森林

本文介绍了决策树的概念,强调了gini系数在决策树构建中的作用,解释了信息熵和信息增益等衡量标准,并通过实例展示了决策树的应用。随机森林部分提到了使用gini系数和熵作为指标的影响,指出glucose、bmi、age等特征在预测糖尿病中的重要性。
摘要由CSDN通过智能技术生成

决策树

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。

8c104204d6a04cbb733180a8fef57013.png

衡量指标:信息熵、gini系数;

信息熵:衡量信息的不确定性或混乱程度的指标,信息不确定性越大,熵越大。(孤立系统的熵增原理)

信息熵

条件熵

信息增益

e0d4104a14d90c32639f746887565a4e.png

d0e62955e20f7edb4802459f9c39845d.png

e9eeb04d0b40d9b2b40dfeb6e3ed1ec0.png

b4821597782cd353889569e2c9ecabd8.png

a5d5c88aa134f6875a139fc9b259ab3f.png

32e0bdf68c021e2d560c50e76158c8a2.png

ccbf9f8d8606eae3bce67e8810717e70.png

打高尔夫球的例子分析特别详细,包括决策树应用的整个过程,具体还要看ppt,如下是最终的结果。

cc6e681a94e0ff13afa78031a777df99.png

eb6b03e71c65f0ded1f75607a4a35fef.png

随机森林:

c616b0e03e9e5d37ac68d248ac555d2f.png

469b892d34ae17357ed9e0d5720fb3c1.png

Homework:

使用Gini作为指标:

4301182873152d798b8604bbaaeb8bee.png

使用Entropy作为指标:

496d3a4ba4048bd77163573db0da20a9.png

845925411d4b26a082ed8cb40f407452.png

较重要的特征有glucose、bmi、age、pedigree等,glucose、体重指数、年龄与糖尿病的相关性比较符合常识认知。

随机森林的结果,没有调节到可以进一步调高的参数。

d78e128d7c967ae4e58822079108ebe2.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值