学习笔记：信息熵与决策树

最新推荐文章于 2022-07-05 17:28:16 发布

胡LiuJia

最新推荐文章于 2022-07-05 17:28:16 发布

阅读量1.1k

点赞数 1

分类专栏：学习笔记文章标签：信息熵决策树人工智能

本文链接：https://blog.csdn.net/damontive/article/details/115289722

版权

本文深入探讨信息熵的概念及其在决策树中的应用，解释了信息熵如何衡量预测难度，条件信息熵如何衡量特定条件下预测的难度，并介绍了信息增益在选择决策树节点上的作用。此外，文章还讨论了构建决策树时需考虑的问题，如根节点的选择、树的生长停止条件，以及决策树的构造准则和潜在问题，如连续型属性处理和决策树剪枝。

摘要由CSDN通过智能技术生成

你也可以通过我的独立博客 —— www.huliujia.com 获取本篇文章

信息熵

什么是信息熵

信息熵用于度量”预测随机变量Y的取值“的难度。信息熵越大说明Y的取值的不确定性越大，即预测难度越大。本文用H(Y)表示预测Y值的信息熵。

下表为两只球队的虚拟的胜、负、平历史记录，显然预测恒大比赛结果的难度要远小于绿城。因为恒大90%都是胜场，预测恒大胜就可以了。而绿城胜、平、负的概率都是三分之一，很难预测绿城的比赛结果。这里随便变量Y就是比赛结果，显然预测恒大比赛结果（即Y的取值为胜、平或者负）的信息熵要小于绿城，即不确定性小于绿城。