「ML」Chap4决策树

最新推荐文章于 2018-05-04 00:00:00 发布

Leonardo711

最新推荐文章于 2018-05-04 00:00:00 发布

阅读量518

点赞数

分类专栏：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Leo00000001/article/details/75332394

版权

机器学习算法专栏收录该内容

7 篇文章 0 订阅

订阅专栏

决策树
1. 划分选择：
1.1 信息增益(ID3)
信息熵的定义：

E n t (D) = - \sum k = 1 | y | p k l o g 2 p k

$Ent(D) = -\sum_{k=1}^{|y|}p_klog_2p_k$
Ent(D)越小，纯度越高
信息增益(information gain)

G a i n (D, a) = E n t (D) - \sum v = 1 V | D v | | D | E n t (D v)

$Gain(D, a) = Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$
一般而言，信息增益越大，属性划分所获的的纯度提升越大。
1.2 信息增益率（C4.5)
信息增益准则可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，C4.5改进成增益率，定义为：

G a i n r a t i o (D, a) = G a i n ( D , a ) I V ( a )

$Gain_ratio(D,a) = \frac{Gain(D,a)}{IV(a)}$
其中：

I V (a) = - \sum v = 1 V | D v | | D | l o g 2 | D v | | D |

$IV(a) = - \sum^{V}_{v=1}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$
1.3 基尼指数

G i n i (D) = \sum k = 1 | y | \sum k' \neq k p k p k' = 1 - \sum k = 1 | y | p 2 k

$Gini(D) = \sum_{k=1}^{|y|}\sum_{k'\not=k}p_kp_{k'} = 1- \sum_{k=1}^{|y|}p_k^2$
Gini(D)越小，数据集D的纯度越高。

G i n i i n d e x (D, a) = \sum v = 1 V | D | | D v | G i n i (D v)

$Gini_index(D,a) = \sum_{v=1}^{V}\frac{|D|}{|D^v|}Gini(D^v)$
2. 剪枝处理
剪枝处理分为预剪枝和后剪枝
预剪枝开销大，每次决策计算一次验证集精度。
后剪枝则在生成决策树之后，对分支计算验证集精度，精度有提升则剪枝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
「ML」Chap4决策树

决策树 1. 划分选择： 1.1 信息增益(ID3) 信息熵的定义： Ent(D)=−∑k=1|y|pklog2pkEnt(D) = -\sum_{k=1}^{|y|}p_klog_2p_k Ent(D)越小，纯度越高信息增益(information gain) Gain(D,a)=Ent(D)−∑v=1V|Dv||D|Ent(Dv)Gain(D, a) = Ent(D) -
复制链接

扫一扫

专栏目录

Leonardo711 CSDN认证博客专家 CSDN认证企业博客

码龄10年

34: 原创

32万+: 周排名

86万+: 总排名

6万+: 访问

: 等级

1074: 积分

19: 粉丝

25: 获赞

5: 评论

30: 收藏

私信

关注

热门文章

分类专栏

最新评论

c++单元测试框架Catch
fzm5298: 覆盖率专家winAMS获得机能安全标准ISO26262/IEC61508工具认证,是日本工业制造领域普遍使用的针对C/C++的单元/集成测试工具.winAMS是将通过交叉编译生成的原始代码作为评价代码,具有使用芯片仿真器进行仿真功能的测试工具.不仅可以对C语言编写的程序进行逻辑水平的测试,还可以对嵌入式软件特有的依存于芯片的问题点进行确认.
探索性数据分析(EDA)
takethevow: 请问这个英文教程可以下载吗
kaggle 代码pipeline学习
charon____: 求填坑！！！
Adaboost算法
Leonardo711: Adaboost很简单，看看代码更清楚
基础研究面试准备
Leonardo711: 还是得多增加项目经历啊，好好搞比赛吧，要相信时间相信自己。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。