决策树Decision tree简析

最新推荐文章于 2020-11-21 21:46:57 发布

tyftihu

最新推荐文章于 2020-11-21 21:46:57 发布

阅读量377

点赞数

分类专栏：机器学习文章标签：决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_29849669/article/details/54124914

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

决策树是一个基于大量数据构造的树形流程图结构。

Play or Don't Play

另外需要引入信息熵的概念。

比如：世界杯预测夺冠球队，一共32支，如果对各个球队没有了解，通过问问题缩小猜测范围的话，用二分法是比较快的。第一次猜1-16，然后逐次减半，最后剩一支球队即为答案。这种方法的最大猜测次数是对n取2的对数(+1)，6次。很明显，随着待选球队的减少，我们对预测结果越来越确定，这就是信息熵的性质:

信息量的度量等于不确定性的大小

反过来说，信息量为1的时候，不确定性是最小的（可以完全确定）。

如果我们知道每支球队的获胜概率P(X)时，我们不必用一般二分法进行猜测，根据信息熵定义：（单位为bit）

这样少于6次的猜测便可得出结果。

决策树归纳算法：

ID3 基于信息获取量（此外还有C4.5，CART）

决策树构造的根本问题是如何选取属性节点，根据上面介绍的信息熵的原理。我们通过“信息获取量”的概念来对属性进行选取。

信息获取量（也叫信息增益）：Gain(A)=Info(D)-Info_A(D)

其中Info(D)指的是没有考虑A属性时的信息获取量，Info_A(D)是考虑A属性之后的信息获取量，所有的信息获取量都在0-1之间。

在选取属性节点时，通过计算每一个属性对应的信息获取量来确定树形分叉依据：选取信息获取量数值最大的属性，然后以此划分样本，对每一个样本重复此过程，直到结果中不存在分歧（或者在一定纯度范围内即可接受）。

PS：

1.所有的属性必须可分类，连续值要分段
（所以对于取连续值的属性，需要不断调整分段设置）

2.停止条件：

所有的样本都属于同一类
没有剩余属性用来继续划分，这时用多数表决法
若存在过度拟合的情况，适当剪枝。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树Decision tree简析

决策树Decision tree简析决策树是一个基于大量数据来构造的树形流程图结构。另外需要引入信息熵的概念。
复制链接

扫一扫

专栏目录

tyftihu CSDN认证博客专家 CSDN认证企业博客

码龄9年

1: 原创

193万+: 周排名

219万+: 总排名

376: 访问

: 等级

14: 积分

0: 粉丝

0: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

决策树Decision tree简析 377

分类专栏

机器学习 1篇

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。