Decision Tree——ID3、C4.5、CART

最新推荐文章于 2024-04-30 12:31:06 发布

赵大寳Note

最新推荐文章于 2024-04-30 12:31:06 发布

阅读量384

点赞数

分类专栏：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010412858/article/details/80466404

版权

机器学习算法专栏收录该内容

33 篇文章 0 订阅

订阅专栏

ID3

决策树关键问题：如何选择特征进行分支
ID3算法思想：选择信息增益最大的属性作为当前的特征对数据集进行分类。

信息熵(Information Entropy)：信息的不确定性程度，变量的不确定性越大，熵的值越大;随机变量不确定性的度量叫熵。一个变量X，它可能的取值有n多种，分别是x1，x2，……，xn，每一种取到的概率分别是P1，P2，……，Pn，那么X的熵就定义为
$Entropy(X)=H(X)=-\sum_{i=1}^{m}p_{i}log(p_{i})$
知乎：信息熵是什么？

信息增益(Information Gain)：在一个条件下，信息不确定性减少的程度；信息增益=信息熵 - 条件熵

$Gain(D, A)=g(D,A)=H(D) - H(D|A)$
其中a是有V个不同取值的离散特征，使用特征a对样本集D进行划分会产生V个分支.

条件熵：已知随机变量X的条件下随机变量Y的不确定性
$H(Y|X)= \sum_{x\in X} p(x)H(Y|X=x)$
通俗理解决策树算法中的信息增益

https://blog.csdn.net/u011327333/article/details/51167952

ID3算法构建决策树存在的问题：

不能处理连续特征
用信息增益作为标准容易偏向于取值较多的特征
缺失值处理的问
过拟合问题

C4.5

信息增益比(Information Gain Ratio)：信息增益 $g(D,A)$ 与训练集D关于特征A的值的熵 $H_{A}(D)$ 之比:
$g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}$

C4.5生成算法与ID3的不同之处：使用信息增益比来选择特征

C4.5算法构建决策树存在的问题：

由于决策树算法非常容易过拟合，因此对于生成的决策树必须要进行剪枝.->预剪枝，后剪枝
C4.5生成的是多叉树，即一个父节点可以有多个节点
C4.5只能用于分类
C4.5由于使用了熵模型，里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算

https://mp.weixin.qq.com/s/EZY3l73aSAA88o-8zJp3ww

决策树剪枝

决策树学习的损失函数:
$C_{\alpha}(T) = \sum_{t=1}^{\vert T \vert}N_tH_t(T) + \alpha \vert T \vert$
使损失函数最小，可动态规划实现。

预剪枝：决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶节点。有欠拟合风险
后剪枝：先从训练集生成一颗完整的决策树，然后自底向上地对非叶节点进行考察，若将该节点对应的子树替换为叶节点能提升决策树的泛化性能，则将该子树减去。训练时间开销大

CART

基尼指数：
$Gini(D)=1-\sum_{k=1}^{|y|}p_{k}^{2}$
属性a的基尼指数定义为：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Decision Tree——ID3、C4.5、CART

决策树关键问题：如何选择特征进行分支 ID3算法思想：选择信息增益最大的属性作为当前的特征对数据集进行分类。信息熵：信息的不确定性程度，变量的不确定性越大，熵的值越大;随机变量不确定性的度量叫熵。一个变量X，它可能的取值有n多种，分别是x1，x2，……，xn，每一种取到的概率分别是P1，P2，……，Pn，那么X的熵就定义为 Entropy(X)=−∑mi=1pilog(pi)Entropy...
复制链接

扫一扫

专栏目录

赵大寳Note CSDN认证博客专家 CSDN认证企业博客

码龄11年

117: 原创

3万+: 周排名

169万+: 总排名

141万+: 访问

: 等级

5876: 积分

210: 粉丝

501: 获赞

69: 评论

1519: 收藏

私信

关注

热门文章

分类专栏

大数据 3篇
编程算法笔记 18篇
机器学习算法 33篇
推荐系统 13篇
python笔记 28篇
深度学习 11篇
Keras 2篇
心情日记 2篇
Go笔记 1篇
Linux笔记 12篇
区块连 2篇
Git笔记 1篇
论文笔记 1篇
笔试 2篇
C++笔记 17篇
Spark笔记 2篇
数据科学 2篇
LaTeX 2篇
秋招实
实用工具 6篇
SQL 1篇
数学笔记 1篇

最新评论

中文数字转阿拉伯数字
顶天立地大头葱: 感谢up！个人觉得可以直接列表初始化，看起来更简洁一些呢。 unordered_map<wchar_t, int> chineseToArabic = { {L'零', 0}, {L'一', 1}, {L'二', 2}, {L'三', 3}, {L'四', 4}, {L'五', 5}, {L'六', 6}, {L'七', 7}, {L'八', 8}, {L'九', 9}, {L'十', 10}, {L'百', 100}, {L'千', 1000}, {L'万', 10000}, {L'亿', 100000000} };
中文数字转阿拉伯数字
Simon-son: 34行，佰写成了玖。
C++常用头文件
CSDN-Ada助手: 非常感谢您分享的《C++常用头文件》这篇博客，对初学者来说非常实用。我觉得下一篇博客可以写一下C++中的多态性和继承，探讨如何更好地利用这些特性来提高代码质量和灵活性，这样的技术文章对其他C++开发者也会非常有帮助。相信您的博客会吸引更多读者关注，期待您的下一篇作品。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Tensorboard 6006端口无法访问的问题
捂耳听风暖: 成功解决，太感谢啦！
用Python将list中的string转换为int
c_lianxisheng: results=[int(num) for num in results if num!=' '] 转化时把' '元素排除掉

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。