机器学习之决策树（算法详细推导）

Diana003

已于 2022-01-22 14:25:02 修改

阅读量148

点赞数

分类专栏：机器学习理论推导文章标签：决策树机器学习数据挖掘

于 2022-01-22 14:20:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Diana003/article/details/122637061

版权

机器学习理论推导专栏收录该内容

9 篇文章 0 订阅

订阅专栏

决策树

决策树针对缺失数据的处理办法

放弃含缺失值的样本，仅使用无缺失值的样本来进行学习
根据此属性值已知的其他样本，来估计这个缺失的属性值
- 赋给它当前结点所有样本中该属性最常见的值
- 赋给它当前结点同类样本中该属性最常见的值
- 为含缺失值属性的每个可能值赋予一个概率

信息熵

范围

[0, $log_2n$ ]， 0->确定事件; $log_2n$ ->均匀分布

特征

Ent(x): 当x的取值越多越大

Ent(x,a): 当a的前提下，x的取值越多越大

决策树类型

ID3(基于信息增益)

$max_a~~~~~~Gain(D,a)=Ent(D)-Ent(D,a)$

C4.5(基于信息增益率)

$max_a~~~Gain\_ratio(D,a)=\frac{Gain(D,a)}{Ent(a)}$

CART(基于基尼系数)

$min_a~~~~~Gini(D,a)=\sum_{i=1}^mp(a_i)Gini(D_i)\\ Gini(D_i)=1-\sum_{k\in D_i} p(k)^2$

终止分支的条件

Gain <= threshold
该节点上所有样本的类别相同
所有特征都已经用过了

注意

信息增益不会<0
叶子节点不一定确保只有一个类别

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树（算法详细推导）

本章简单介绍了三种决策树的目标函数以及决策树解决缺失值的办法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。