信息熵
1948年,香农提出了“信息熵”的概念,解决了对信息的量化度量问题。C.E.Shannon(香农)用信息熵来表示混合概率分布不确定的程度(不确定性越大,熵越大)。
信息熵定义:
举个例子:假设抛硬币P(x=正面)=0.4,P(x=反面)=0.6,此时有
![baea82b377af6fed95c7c5761d028145.png](https://i-blog.csdnimg.cn/blog_migrate/83768b1143601203678f26e7a2f9073d.png)
从上图可以得到在正反面概率都为0.5时,信息熵最大。直观上可以这么理解:正反概率都为0.5时候,硬币的不确定性最大,那么它的熵也就最大。
相对熵
相对熵是两个概率分布(probability distribution)间差异的非对称性度量,用来衡量两个分布之间的差异
交叉熵
相对熵可以看作,交叉熵-label概率分布的信息熵
其中
其中P是label在给定输入下的概率分布 ,Q是网络预测输出的分布。在模型迭代求导过程中,-H(P)这一块是常数,那么不需要加进来求导。因此,在分类任务模型训练中往往使用交叉熵作为损失函数。并且交叉熵带有的log函数在迭代求导过程中能够抵消指数函数在梯度计算上的影响。
本文对这三个概念做一个知识笔记整理,还会持续更新,丰富内容