决策树 连续变量_决策树 ID3 Gini详细分析

基本上是copy

安夏木:数据分析方法—决策树分类算法及实现(2)​zhuanlan.zhihu.com
71154e9bcf641ce58007a193b844a2f1.png
忆臻:深入浅出理解决策树算法(二)-ID3算法与C4.5算法​zhuanlan.zhihu.com
5df89799306ff1a925d6a4eeba30e2ed.png
PytLab酱:机器学习算法实践-决策树(Decision Tree)​zhuanlan.zhihu.com
5393e25cc3cfa5da42485ad5622abe80.png
ID3算法思想:
ID3使用信息增益作为特征选择的度量,使用自顶向下的贪心算法遍历决策树空间。具体的:
 1. 计算数据集合的信息熵,以及各个特征的条件熵。选择信息增益最大的作为本次划分节点。
 2. 删除上一步使用的特征,更新各个分支的数据集和特征集。
 3. 重复1,2步,知道子集包含单一特征,则为分支叶结点。

信息熵越大,意味着信息越是无序。
信息增益越大,那么就是指分完之后的信息熵越小,那也就意味着分完之后的数据趋向于有序,
而越有序的数据,意味着我们能更好地预测数据。

5a42a58b34877926b9764f1aee9e9c3e.png

d6f74ef4993cf7cc88af731332846195.png

37a8957260f086fa96100b91b75ee67c.png

4e6e4bac9c89a0583eed2640ba5ab507.png

3d2afb32f577ca3bc19cb08cd95697e6.png

96e45d4c9f6e361627b87783394ad214.png
C4.5算法
 C4.5主要是克服ID3使用信息增益进行特征划分对取值数据较多特征有偏好的缺点。
使用信息增益率进行特征划分。

C4.5相比ID3进行的改进有如下4点:
 1. 引入剪枝策略,使用悲观剪枝策略进行后剪枝
 2. 使用信息增益率代替信息增益,作为特征划分标准
 3. 连续特征离散化
   需要处理的样本或样本子集按照连续变量的大小从小到大进行排序
 4. 缺失值处理
   对于具有缺失值的特征,用没有缺失的样本子集所占比重来折算信息增益率,选择划分特征
   选定该划分特征,对于缺失该特征值的样本,将样本以不同的概率划分到不同子节点

484684424793b5ead3a466f1d2178f2e.png
CART算法思想, CART树在C4.5基础上进行了如下改进:

 1. CART使用二叉树来代替C4.5的多叉树,提高了生成决策树效率
 2. C4.5只能用于分类,CART树可用于分类和回归
 3. CART 使用 Gini 系数作为变量的不纯度量,减少了大量的对数运算
 4. CART 采用代理测试来估计缺失值,而 C4.5 以不同概率划分到不同节点中
 5. CART 采用“基于代价复杂度剪枝”方法进行剪枝,而 C4.5 采用悲观剪枝方法
 6. ID3 和 C4.5 层级之间只使用一次特征,CART 可多次重复使用特征

e336548ca79303146278b070a1e3fc49.png

3d0d70edb56173ce14d46b832acba143.png

64ecde6dd0eaf12f2091acd3982d3280.png

e4635478c631f55c47ba5dd1233020e6.png

20ac2ec4ab7d7efff1aef76143114b9d.png

1de64dee3b587a7d70408f1054c1aec2.png

45280b590d4044b1ab93a4b133c2b916.png

61dac141c4c806ea152965439e70fe96.png

e2c6abe80cc0f5f1451e6a0c703bf037.png

9950880863574b88d820a1a3742ccb3a.png

219cc842eaa802d01c09369814bedc11.png

6c169e47c17f59750a9535e7dc803728.png

1effe9b669d62bcf19396bf4d8131c58.png

b1d0cec425bcba8c1d34b84ec41aeb9e.png

ff2cdd71d47f70616ffaee443d715edc.png

b79ebbd8cbe1e87b3c6b1e567878b637.png

8cc6e52074b1c818ce21abf2bf965868.png

2480050dbf6370f054a7f699ecf50178.png
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值