非香农类信息不等式_信息熵、相对熵、交叉熵

信息熵

1948年,香农提出了“信息熵”的概念,解决了对信息的量化度量问题。C.E.Shannon(香农)用信息熵来表示混合概率分布不确定的程度(不确定性越大,熵越大)。

信息熵定义:

举个例子:假设抛硬币P(x=正面)=0.4,P(x=反面)=0.6,此时有

baea82b377af6fed95c7c5761d028145.png

从上图可以得到在正反面概率都为0.5时,信息熵最大。直观上可以这么理解:正反概率都为0.5时候,硬币的不确定性最大,那么它的熵也就最大。

相对熵

相对熵是两个概率分布(probability distribution)间差异的非对称性度量,用来衡量两个分布之间的差异

交叉熵

相对熵可以看作,交叉熵-label概率分布的信息熵

其中

就是交叉熵。

其中P是label在给定输入下的概率分布 ,Q是网络预测输出的分布。在模型迭代求导过程中,-H(P)这一块是常数,那么不需要加进来求导。因此,在分类任务模型训练中往往使用交叉熵作为损失函数。并且交叉熵带有的log函数在迭代求导过程中能够抵消指数函数在梯度计算上的影响。

本文对这三个概念做一个知识笔记整理,还会持续更新,丰富内容

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值