机器学习决策树算法之——理论推导与数学原理

最新推荐文章于 2024-08-04 21:08:26 发布

WPR1991

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量2.1k

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/WPR1991/article/details/82763040

版权

本文深入探讨了决策树算法中的信息熵和信息增益概念。通过举例解释了信息熵的含义，展示了如何从统计学的二项分布出发，推导出信息熵的计算公式，并引入条件熵和信息增益的概念，强调信息增益在选择最优特征中的作用。

摘要由CSDN通过智能技术生成

决策树作为一种分类算法，由于其强解释性与低学习成本，而广受欢迎，本篇文章仅从理论层面解释该算法的实现逻辑与数学推导过程。

说起决策树，离不开对信息熵的理解，该词来源于信息论，信息熵这个词对于我们来说比较陌生，用书面语说，信息熵就是所有可能发生事件所带来的信息量的期望。我用自己的通俗理解将其解释为：获取一个结论所需要的信息量（或者说获取结论而需要付出的代价）。举个例子，我需要判断一只鸡是公鸡还是母鸡，很简单，只需要观察它的鸡冠，鸡冠大的肯定是公鸡，而母鸡的鸡冠则非常小。对于我来说，获取一只鸡是公鸡还是母鸡所需的信息量非常小，只是因为在鸡群中多看了你一眼，再也无法忘掉你容颜。那么我可以说对于获取鸡的雌雄所需的信息熵很小。而另一种情况，我需要判断一个人的性格是外向还是内向，光看他一眼可能就难以判断了，我还需要和他交往，听他说话的语气，看他的兴趣爱好以及工作性质，甚至还要去深入了解他的朋友圈。这实代价实在太大了，则对于断定一个人是外向还是内向这件事的信息熵就很大。

用通俗的语言解释了信息熵之后，接下来我们先回到统计学的一个概念上来——二项分布。

我们知道抛一枚硬币，结果只有两种——要么正面，要么反面。对于抛硬币这样一件事来说，就符合二项分布。这个比较好理解，一件事的发生情况只有两种（我们可以记为0和1），0发生的概率为P，那么1发生的概率自然就是（1-P）。我们将出现正面记为1，出现反面为0，出现正面概率为P1，出现反面概率为P0。则我们可以将一次某一次抛硬币事件的概率表述为：