吴恩达deeplearning.ai:纯度

以下内容有任何不理解可以翻看我之前的博客哦:吴恩达deeplearning.ai专栏


这节中我们了解下纯度的定义,还是猫的例子,我们知道一组例子中全是猫纯度最高,所有都不是猫,纯度也很高,但是其它的我们该如何定义纯度呢?我们先要看看熵的定义。它是衡量一组数据不纯度的标准。

纯度

熵的函数图像如下:
在这里插入图片描述
我们还是以猫猫狗狗举例,假设你的猫有三只,狗也有三只,那么p1的取值就是0.5,此时的熵H(p1)最大,为1,这代表你的数据集的混乱程度最高。但如果你的数据集里全是狗或者全是猫,此时的p1为0或1,那么熵H(p1)就为0,即混乱程度为0,为最有序的情况。以下是几个例子:在这里插入图片描述

数学表达

以下是熵的数学表达式:
p 1 = f r a c t i o n    o f    e x a m p l e s    t h a t    a r e    c a t s . p 0 = 1 − p 1 H ( p 1 ) = − p 1 l o g 2 ( p 1 ) − p 0 l o g 2 ( p 0 ) = − p 1 l o g 2 ( p 1 ) − ( 1 − p 1 ) l o g 2 ( 1 − p 1 ) p_1=fraction\;of\;examples\;that\;are\;cats.\\ p_0=1-p_1 \\ H(p_1)=-p_1log_2(p_1)-p_0log_2(p_0)=-p_1log_2(p_1)-(1-p_1)log_2(1-p_1) p1=fractionofexamplesthatarecats.p0=1p1H(p1)=p1log2(p1)p0log2(p0)=p1log2(p1)(1p1)log2(1p1)
我感觉这个和前面在计算逻辑回归的损失时的交叉熵的算法很像。注意在p0或者p1为0时这个式子实际上是0log0,log0是不存在的,但是是乘嘛,就看作0了。
0 l o g ( 0 ) = 0 0log(0)=0 0log(0)=0
因此你在决策树中计算纯度时,用熵的公式就行了,记住,熵是一组数据不纯程度的度量。
现在有了熵的定义,接下来我们看看如何使用它来决定决策树的节点根据那些特征进行拆分。

选择拆分信息增益

在构建决策树时,我们在节点上选择何种特征进行拆分,取决去哪种拆法能最大程度地减少熵,即最大化纯度。我们在这节中主要学习下如何计算信息增益。
我们以根节点的选择为例,我例举出了以下三种可能的根节点特征选择方法:

  1. 耳朵的形状
  2. 脸的形状
  3. 是否有胡须

然后分别计算出它们的两个分支的信息熵:
在这里插入图片描述
但是每个选择有两个分支呀,这个熵不好比较,因此我们需要加权平均,从而看出每个特征的熵的平均值,分到的数据集多的由于其对决策树的影响更大,因此权重更高,从而可以计算出每种特征选择的熵。
但是!你以为这就够了吗!哈哈你错了,还需要你减去上一节点的熵,来比较它们的熵减谁更多。这样做的原因是熵减过少时,需要停止继续分裂节点,不然决策树会过于复杂,而在准确性上的增益又太少。那就不值当了。
在这里插入图片描述
以小见大,我们可以得出信息增益公式,你可以利用这个公式来计算每个节点的信息减少量:
在这里插入图片描述

为了给读者你造成不必要的麻烦,博主的所有视频都没开仅粉丝可见,如果想要阅读我的其他博客,可以点个小小的关注哦。

  • 26
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江安的猪猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值