【机器学习基础】信息熵,联合熵,条件熵,互信息,相对熵,交叉熵

   

目录

1 信息

2 信息熵

    3 条件熵、互信息

    3.1 条件熵

    3.2 互信息

    3.3 熵之间的关系推导与证明

4 相对熵    

5 交叉熵

6 参考链接


    在机器学习中,信息熵(Entropy)是一个非常重要的概念,因为围绕着熵有着许许多多的应用和算法。信息熵的概念是由香农在1948年提出的,熵这个概念最初源于热力学,热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。所以,简单来理解,信息熵描述的就是信息的不确定度。

1 信息

    在给出信息熵的定义之前,必须要先描述一下信息,一条信息的信息量大小和它的不确定性有直接的关系。我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。比如,有人说广东下雪了。对于这句话,我们是十分不确定的。因为广东几十年来下雪的次数寥寥无几。为了搞清楚,我们就要去看天气预报,新闻,询问在广东的朋友,而这就需要大量的信息,信息熵很高。再比如,中国男足进军2022年卡塔尔世界杯决赛圈。对于这句话,因为确定性很高,几乎不需要引入信息,信息熵很低。

    考虑一个离散的随机变量x,由上面两个例子可知,信息的度量应该依赖于概率分布p(x),因此我们想要寻找一个函数I(x),它是概率p(x) 的单调函数。怎么寻找呢?如果我们有两个不相关的事件 x 和y,那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和,即:I(x,y)=I(x)+I(y)

    因为两个事件是独立不相关的,因此根据概率公式有 p(x,y)=p(x)p(y)。根据这两个关系,很容易看出I(x)一定与p(x) 的对数有关 (因为对数的运算法则是log_a(mn)=log_am+log_an。因此,我们有

                                                                        

  • 10
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值