吴恩达deeplearning.ai:纯度

最新推荐文章于 2024-06-14 20:43:21 发布

江安的猪猪

最新推荐文章于 2024-06-14 20:43:21 发布

阅读量784

点赞数 26

分类专栏：吴恩达deeplearning.ai 文章标签：人工智能机器学习深度学习神经网络

本文链接：https://blog.csdn.net/m0_75077001/article/details/136611870

版权

吴恩达deeplearning.ai 专栏收录该内容

40 篇文章 2 订阅

订阅专栏

以下内容有任何不理解可以翻看我之前的博客哦：吴恩达deeplearning.ai专栏

文章目录

纯度
- 熵
- - 数学表达
选择拆分信息增益

这节中我们了解下纯度的定义，还是猫的例子，我们知道一组例子中全是猫纯度最高，所有都不是猫，纯度也很高，但是其它的我们该如何定义纯度呢？我们先要看看熵的定义。它是衡量一组数据不纯度的标准。

纯度

熵

熵的函数图像如下：
在这里插入图片描述
我们还是以猫猫狗狗举例，假设你的猫有三只，狗也有三只，那么p1的取值就是0.5，此时的熵H(p1)最大，为1，这代表你的数据集的混乱程度最高。但如果你的数据集里全是狗或者全是猫，此时的p1为0或1，那么熵H(p1)就为0，即混乱程度为0，为最有序的情况。以下是几个例子：在这里插入图片描述

数学表达

以下是熵的数学表达式：
$p_1=fraction\;of\;examples\;that\;are\;cats.\\ p_0=1-p_1 \\ H(p_1)=-p_1log_2(p_1)-p_0log_2(p_0)=-p_1log_2(p_1)-(1-p_1)log_2(1-p_1)$
我感觉这个和前面在计算逻辑回归的损失时的交叉熵的算法很像。注意在p0或者p1为0时这个式子实际上是0log0，log0是不存在的，但是是乘嘛，就看作0了。
$0 l o g (0) = 0$
因此你在决策树中计算纯度时，用熵的公式就行了，记住，熵是一组数据不纯程度的度量。
现在有了熵的定义，接下来我们看看如何使用它来决定决策树的节点根据那些特征进行拆分。

选择拆分信息增益

在构建决策树时，我们在节点上选择何种特征进行拆分，取决去哪种拆法能最大程度地减少熵，即最大化纯度。我们在这节中主要学习下如何计算信息增益。
我们以根节点的选择为例，我例举出了以下三种可能的根节点特征选择方法：

耳朵的形状
脸的形状
是否有胡须

然后分别计算出它们的两个分支的信息熵：
在这里插入图片描述
但是每个选择有两个分支呀，这个熵不好比较，因此我们需要加权平均，从而看出每个特征的熵的平均值，分到的数据集多的由于其对决策树的影响更大，因此权重更高，从而可以计算出每种特征选择的熵。
但是！你以为这就够了吗！哈哈你错了，还需要你减去上一节点的熵，来比较它们的熵减谁更多。这样做的原因是熵减过少时，需要停止继续分裂节点，不然决策树会过于复杂，而在准确性上的增益又太少。那就不值当了。
在这里插入图片描述
以小见大，我们可以得出信息增益公式，你可以利用这个公式来计算每个节点的信息减少量：

为了给读者你造成不必要的麻烦，博主的所有视频都没开仅粉丝可见，如果想要阅读我的其他博客，可以点个小小的关注哦。

江安的猪猪

关注

26
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
吴恩达deeplearning.ai:纯度

我们还是以猫猫狗狗举例，假设你的猫有三只，狗也有三只，那么p1的取值就是0.5，此时的熵H(p1)最大，为1，这代表你的数据集的混乱程度最高。这节中我们了解下纯度的定义，还是猫的例子，我们知道一组例子中全是猫纯度最高，所有都不是猫，纯度也很高，但是其它的我们该如何定义纯度呢？我们先要看看熵的定义。它是衡量一组数据不纯度的标准。但是每个选择有两个分支呀，这个熵不好比较，因此我们需要加权平均，从而看出每个特征的熵的平均值，分到的数据集多的由于其对决策树的影响更大，因此权重更高，从而可以计算出每种特征选择的熵。
复制链接

扫一扫