机器学习--条件熵和信息增益的关系,怎么理解条件熵?

本文探讨了熵、条件熵和信息增益的概念。熵是衡量随机变量不确定性的一个指标,例如在购买衣服的决策中表示犹豫的程度。条件熵是在已知某个条件的情况下,随机变量的不确定性,如在查看商品评价或线下试穿后决定是否购买衣服的不确定性。信息增益则是了解条件后不确定性减少的量,举例中,线下试穿比查看评价更能减少购买衣服的不确定性。通过条件熵和信息增益的关系,可以指导决策,例如在构建决策树时选择更有价值的特征。
摘要由CSDN通过智能技术生成

熵的概念:

表示一个随机变量的复杂性或者不确定性。

举例:

假如双十一我要剁手买一件衣服,但是我一直犹豫着要不要买,我决定买这件事的不确定性(熵)为2.6。

条件熵的概念:

表示在直到某一条件后,某一随机变量的复杂性或不确定性。

举例:
  • 我在看了这件衣服的评价后,我决定买衣服这件事的不确定性是1.2。
  • 我在线下实体店试穿衣服后,我决定买衣服这件事的不确定性是0.9。

信息增益的概念:

表示在知道某一条件后,某一随机变量的不确定性的减少量。

上面条件熵给出了两个:
  • 一个是看了网上的评价,此时的信息增益是

    Gain1=2.6−1.2=1.4Gain1=2.6−1.2=1.4
    
  • 另一个是线下试穿了衣服,此时的信息增益

    Gain2=2.6−0.9=1.7Gain2=2.6−0.9=1.7
    

很显然我在线下试穿衣服之后对于决定买这件衣服的不确定度下降更多,更通俗的说就是我试穿衣服之后买这件衣服的可能性更大了。所以如果有看买家评价和线下试穿两个属性,首先应该选择线下试穿来构建内部节点。

条件熵的实列:

例子:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值