自然语言处理基础之信息熵,联合熵,条件熵,交叉熵,相对熵

本文主要介绍信息论基本相关知识,这些知识在机器学习中的相关算法的基础,是学习机器学习及深度学习的基础知识。本文具体介绍信息熵、交叉熵及相对熵,需要深入了解信息论知识,请参考《信息论基础》。

1)信息熵(Information Entropy)

       信息熵来源于克劳德·爱尔伍德·香农的信息论,在介绍信息熵之前,我们先来了解信息量的概念。
       人类交流可以理解信息的交流。你接收的任何一条信息,都包含一定的信息量,只是每条信息对应的信息量可能会有不同。比如国兵取得奥运会金牌,国足取得世界杯总冠军等都包含一些信息量,但它们包含的信息量不同。由于国足取得世界杯总冠军这个事件的概率很小,需要确认这个事件,你需要了解很多的信息,所以国足包含的信息量更大。因此,信息量是用来确定一件事情所需要的信息量的大小,某事件发生的概率小,则该事件的信息量大,信息量与事件发生的概率成反比(1)
       如果我们有两个不相关的事件 x 和 y,那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和。
                                           I ( x , y ) = I ( x ) + I ( y ) I(x,y) = I(x) + I(y) I(x,y)=I(x)+I(y)(2)
       因为两个事件是独立不相关的,因此必须满足 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y) (3)
       根据以上三个要求,香农构造自信息函数 I ( X ) I(X) I(X)为:
                                           I ( x ) = l o g ( 1 p ( x ) ) = − l o g p ( x ) I(x) = log(\frac{1}{p(x)}) =-logp(x) I(x)=log(p(x)1)=logp(x)
        I ( x ) I(x) I(x) 自信息 (self-information)函数图像如下:
自信息函数图像
       对随机变量的信息量求期望即为信息熵(Information Entropy),它是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。
                      H ( x ) = − ∑ x p ( x ) l o g ( p ( x ) ) = − ∑ i = 1 n p ( x i ) l o g p ( x i ) H(x) = -\sum_{x}p(x)log(p(x))=-\sum_{i=1}^{n}p(x_i)logp(x_i) H(x)=xp(x)log(p(x))<

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值