信息论的基本概念比较:自信息、香浓熵、微分熵、相对熵、交叉熵

本文主要介绍和比较若干信息论中的重要定义:自信息、香浓熵、微分熵、相对熵、交叉熵。

定义概述

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。

希望能有一种量化信息的方法,并且具备一些性质,如:
• 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件
应该没有信息量。
• 较不可能发生的事件具有更高的信息量。
• 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,
应该是投掷一次硬币正面朝上的信息量的两倍。

这就引出了自信息,我们定义一个事件x = x 的自信息(self-information):

I(x)=logP(x) I ( x ) = − l o g P ( x )

自信息只处理单个的输出。我们可以用 香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:
H(x)=EXP[I(x)]=EXP[logP(x)] H ( x ) = E X − P [ I ( x ) ] = − E X − P [ l o g P ( x ) ]

一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。当x 是连续的,香农熵被称为 微分熵(differential entropy)。

如果我们对于同一个随机变量x 有两个单独的概率分布P(x) 和Q(x),我们可以使用KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。KL散度又称为相对熵

DKL(P||Q)=EXP[logP(x)logQ(x)] D K L ( P | | Q ) = E X − P [ l o g P ( x ) − l o g Q ( x ) ]

KL散度的物理意义可以理解为:在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布Q 产生的消息的长度最小的编码,发送包含由概率分布P 产生的符号的消息时,所需要的额外信息量。

一个和KL 散度密切联系的量是交叉熵(cross-entropy),它和KL 散度很像但是缺少左边一项:

H(P,Q)=H(P)+DKL(P||Q)=EXPlogQ(x) H ( P , Q ) = H ( P ) + D K L ( P | | Q ) = − E X − P l o g Q ( x )

总结比较

名称性质用途
自信息非负量化单个事件发生包含信息量(不确定度)的基本方法
香浓熵非负对概率分布中的不确定性总量进行量化
微分熵非负对连续性随机变量的概率分布中的不确定性总量进行量化
相对熵非负,非对称衡量两个分布之间的差异;用作机器学习分类任务的损失函数时,往往可以替换为交叉熵
交叉熵非负衡量两个随机变量之间的相似度;当真实输出a与期望输出y接近的时候,代价函数接近于0;常用作分类问题中的损失函数
  • 5
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值