决策树与信息熵，信息增益

ppwangGS

已于 2024-03-05 16:14:39 修改

阅读量763

点赞数 21

分类专栏：机器学习文章标签：决策树算法机器学习

于 2024-03-05 16:12:34 首次发布

本文链接：https://blog.csdn.net/ppwangGS/article/details/136458172

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了信息熵的概念，用于衡量信息的不确定性，以及香农提出的计算方法。通过实例和信息增益公式展示了如何在分类中降低不确定性，如在决策树选择根节点时，天气被选为最佳分类依据。

摘要由CSDN通过智能技术生成

信息熵（entropy）

作用

描述不确定性的大小，值越小越确定，值越大越不确定

历史

香农提出了 ”信息熵“的概念
在这里插入图片描述

举例

1: 太阳明天从东边升起（确定的，信息熵小）
2: 明天可能会遇见月食（具有不确定性，信息熵大）

公式

假设有K 个信息集
组成样本集合D
记录第K个信息发生的概率为，(所有Pk 累加起来和为1)
$P_k (1 \leq k \leq K)$

这个K个信息的信息熵公式，E(D) 的值越小，表示信息越确定，D的纯度越高：
$-\sum_{k=1}^{K}P_k \log_{2}P_k$

描绘函数曲线图，所有Pk 累加起来和为1，当只有两个信息时，信息熵随概率变化的曲线如图所示：

在这里插入图片描述

信息增益

作用

用来描述分类后不确定性 减少的程度，可以作为决策树选择分类条件的依据

公式

$\text{Gain(D,A)} = \text{E}(D) - \sum_{i=1}^{n} \frac{|D_i|}{|D|} \cdot \text{E}(D_i)$

例子

原始数据：
在这里插入图片描述
步骤一：求解分类前，是否去游乐场的信息熵
9人去游乐场，5人不去游乐场，依据信息熵公式求解如下：
$-(\frac{{9}}{{14}} * log_2 \frac{{9}}{{14}} + \frac{{5}}{{14}}* log_2 \frac{{5}}{{14}} )= 0.94$
步骤二：求解按照天气分类后，是否去游乐场的信息熵
晴去游乐场
晴天2人去游乐场，3人不去游乐场，晴天去游乐场的信息熵求解如下
$-(\frac{{2}}{{5}} * log_2 \frac{{2}}{{5}} + \frac{{3}}{{5}}* log_2 \frac{{3}}{{5}} ) = 0.971$
多云去游乐场
多云4人去游乐场，0人不去游乐场，多云去游乐场的信息熵求解如下
$-(\frac{{4}}{{4}} * log_2 \frac{{4}}{{4}} ) = 0$
雨云去游乐场
雨天3人去游乐场，2人不去游乐场，雨天去游乐场的信息熵求解如下
$-(\frac{{3}}{{5}} * log_2 \frac{{3}}{{5}} + \frac{{2}}{{5}}* log_2 \frac{{2}}{{5}} ) = 0.971$
步骤三：求解分类后对比分类前的信息增益
其中 A = ”天气状况“，于是按照天气状况归类后的信息增益为
$\text{Gain(D,A)} = \text{E}(D) - \sum_{i=1}^{n} \frac{|D_i|}{|D|} \cdot \text{E}(D_i)$
$0.940-(\frac{{5}}{{14}} *0.971 + \frac{{4}}{{14}}* 0 + \frac{{5}}{{14}} *0.971) = 0.246$