决策树原理及实现（一）--ID3算法及改进（C4.5）

最新推荐文章于 2024-03-14 22:29:05 发布

zealscott

最新推荐文章于 2024-03-14 22:29:05 发布

阅读量4.5k

点赞数 3

分类专栏： MachineLearning 文章标签：决策树 ID3 C4.5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crazy_scott/article/details/79962513

版权

本文介绍了决策树的基本原理和流程，包括信息熵、信息增益等概念，详细阐述了ID3算法及其缺点，并介绍了C4.5算法如何改进ID3，解决连续特征、过拟合等问题。

摘要由CSDN通过智能技术生成

决策树是机器学习中很经典也很直观的算法。本文介绍决策树的基本思路和原理。

引言

决策树（Decision Tree）是一种基本的分类与回归算法。决策树是一种树形结构，这在计算机中的数据结构中很常见，也很容易理解：我们选择一种属性对其进行划分，通过其属性的取值不同划分节点，直到最后属性完全相同或不能继续划分为止。

因此，其学习的关键在于如何选择最优划分属性。这也是我们接下来要重点介绍的。

然而，决策树也可以认为给定特征分类下条件概率分布的一种表示。该条件分布定义在特征空间的划分上：特征空间被划分成不相交的单元，每个单元定义一个类的概率分布就构成了条件概率分布。

相比朴素贝叶斯分类，决策树的优势在于构造过程不需要任何领域知识或参数设置，因此在实际应用中，对于探测式的知识发现，决策树更加适用。

决策树基本流程

可将决策树算法概括为：

特征选择
决策树生成
预（后）剪枝

其中特征选择是我们最为关注的。常见的特征选择算法有ID3、C4.5、CART算法，下面会依次介绍。

信息论基础

不加说明的，我们找来信息论中的熵来定义决策树的决策选择度量。

信息熵

熵度量了事物的不确定性，越不确定的事物，它的熵就越大。定义在当前样本集合 $D$ 中，取值为 $i$ 的样本所占的比例为 $p_i$ ， $S$ 为对应的分类类别，因此可得：

\sum_{k} p_{k} = 1

$\sum _k p_k = 1$

定义 $D$ 的熵为：

E n t (D) = - \sum_{k} p_{k} l o g P_{k}

$Ent(D) = - \sum_k p_k log P_k$

可验证，当 $P_k = 0 或 P_k = 1$ 时 $Ent(D)$ 最小，当 $P_k = \frac{1}{S}$ 时值最大。

信息增益

以上是在样本集合 $D$ 上的熵，我们想要知道如何选择属性能使得划分结果熵越小（也就是纯度越高）。

因此我们对于样本的每一个属性 $a$ ，设此属性有 $T$ 种不同的取值，计算其信息增益（information gain）：

G a i n (D, a) = E n t (D) - \sum t = 1 T | D t | | D | E n

最低0.47元/天解锁文章

关注

3
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zealscott CSDN认证博客专家 CSDN认证企业博客

码龄7年

196: 原创

3万+: 周排名

32万+: 总排名

70万+: 访问

: 等级

6982: 积分

318: 粉丝

387: 获赞

118: 评论

1752: 收藏

私信

关注

热门文章

分类专栏

最新评论

KMP算法详解（C++实现）
2401_84256088: 又臭又长还有错，看我写的 /** * @param s 待匹配的字符串 * @param p 模式串 * @return s是否包含p * next[j]表示以p[j]结尾的子串，的最长相等先后缀的长度 */ bool kmp (const string &s, const string &p) { int n = s.size(), m = p.size(), next[m], i, j, k; next[0] = 0; for (j = 1; j < m; j++) { for (k = next[j-1]; k && p[j] != p[k]; k = next[k - 1]); next[j] = p[j] == p[k] ? k + 1 : 0; } for (i = 0, j = 0; i < n && j < m;) { if (s[i] == p[j]) i++, j++; else j = next[j]; } return j == m; }
矩阵求导法则与性质
Jerry fk: 我也在纠结这玩意儿，我刚看了定义，他那个刚好写反了
hexo下LaTeX无法显示的解决方案
风翼飞镰: 这是关键啊:CDN地址！
python plot hist 密度图概率和不为1
尚未填写: 有用，感谢！想要绘制多组数据的概率图的话，只需把不同的weights添加到一个列表即可，比如： x_value = [train_points, test_points] train_weights = np.ones_like(train_points)/float(len(train_points)) test_weights = np.ones_like(test_points)/float(len(test_points)) weights = [train_weights, test_weights] plt.hist(x_value, bins=10, histtype="bar", alpha=0.5, label=["training set", "test set"], weights=weights) plt.legend() plt.show()
根据坐标点位置计算方位角（python实现）
Auto_yaoyao: 请问你计算的方位角是地面的？是当前时刻还是下一时刻

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。