信息论的一些基本概念:自信息、香农熵、交叉熵

信息论

来定义信息一般想满足以下这些基本想法,
- 非常可能发生的事件信息量要比较少,并且在极端情况下,确保能发生的事情应该没有信息量。
- 较不可能发生的事件具有更高的信息量。
- 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,
应该是投掷一次硬币正面朝上的信息量的两倍。

定义一个事件 x=x x = x 自信息为,

I(x)=lnP(x). I ( x ) = − ln ⁡ P ( x ) .

自信息只处理单个的输出。我们可以使用香农熵(Shannon entropy)来对整个概率分布的不确定性的总量进行量化:

H(x)=ExP[I(x)]=ExP[logP(x)], H ( x ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ log ⁡ P ( x ) ] ,

也可以记做 H(P) H ( P ) .
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息的总量。
x x 是连续的, 香农熵被称为 微分熵(differential entropy)。


对于同一个随机变量 x x 有两个单独的概率分布 P(x) P ( x ) Q(x) Q ( x ) , 我们可以使用KL散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异:

DKL(P||Q)=ExP[logP(x)Q(x)]=ExP[IQ(x)IP(x)]. D K L ( P | | Q ) = E x ∼ P [ log ⁡ P ( x ) Q ( x ) ] = E x ∼ P [ I Q ( x ) − I P ( x ) ] .

在离散变量的情况下, KL散度衡量的是,当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量。

KL散度有很多有用的性质,最重要是它是非负的。 KL散度为0,当且仅当 P P Q 在离散变量的情况下是相同的分布,或者在连续变量的情况下是“几乎处处”相同的。 因为KL散度是非负的且衡量的是两个分布之间的差异, 它经常被用作分布之间的某种距离, 但是注意KL散度并不对称,所以并是确切意义上距离。

交叉熵

H(P,Q)=H(P)+DKL(P||Q). H ( P , Q ) = H ( P ) + D K L ( P | | Q ) .

H(P,Q)=ExPIQ(x)=ExPlogQ(x). H ( P , Q ) = E x ∼ P I Q ( x ) = − E x ∼ P log ⁡ Q ( x ) .

P P 的概率分布下求Q(x)分布的信息的期望值。

有点像某种内积的东西??

针对Q来最小化交叉熵等价于最小化KL散度, 因为 HP,Q H ( P , Q ) 的第一项与 Q Q <script type="math/tex" id="MathJax-Element-62">Q</script>无关。

参考:花书第三章

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值