直观理解熵

qq1033930618

已于 2022-04-01 19:26:42 修改

阅读量379

点赞数

文章标签： latex pytorch transformer

于 2022-04-01 16:49:35 首次发布

本文链接：https://blog.csdn.net/qq_51326691/article/details/123898734

版权

文章目录

一、信息熵
二、相对熵KL散度
三、交叉熵
四、正态分布KL散度

一、信息熵

$H\left(X\right)=-\sum_{i=1}^{n}p\left(x_i\right)logp\left(x_i\right)$

信息熵越大越混乱 不确定性越高 越接近均匀分布 信息越少
n		随机变量可能取值
x		随机变量
p(x)	随机变量x的概率函数
无论对数以谁为底数都没有影响 一般以10为底数

二、相对熵KL散度

$D_{KL}\left(p||q\right)=\sum_{i=1}^{n}{p\left(x_i\right)log\frac{p\left(x_i\right)}{q\left(x_i\right)}}$

两个概率分布差异非对称度量
同一个随机变量两个不同分布之间距离
非对称性		仅PQ概率分布完全一样才相等
非负性 		仅PQ概率分布完全一样才相等为0
可以写作交叉熵减去信息熵

$D_{KL}\left(p||q\right)=\sum_{i=1}^{n}{p\left(x_i\right)log\frac{p\left(x_i\right)}{q\left(x_i\right)}}$
$=\sum_{i=1}^{n}p\left(x_i\right)logp\left(x_i\right)-\sum_{i=1}^{n}p\left(x_i\right)logq\left(x_i\right)$
$=H\left(P,Q\right)-H\left(P\right)$

三、交叉熵

度量随机变量预测分布Q和真实分布P差距
越小说明分布距离小
只和真实标签的预测概率有关
因为非真实标签P(x)=0乘任何数都为0

$H\left(P,Q\right)=-\sum_{i=1}^{n}p\left(x_i\right)logq\left(x_i\right)$
$H\left(P,Q\right)=\sum_{x}{p\left(x\right)log\frac{1}{q\left(x\right)}}$

最简化公式 仅计算真实标签预测

$CrossEntropy\left(p,q\right)=-logq\left(c_i\right)$

二分类公式

$H\left(P,Q\right)=\sum_{x}{p\left(x\right)log\frac{1}{q\left(x\right)}}$
$=\left(p\left(x_1\right)logq\left(x_1\right)+p\left(x_2\right)logq\left(x_2\right)\right)$
$=\left(plogq+\left(1-p\right)log\left(1-q\right)\right)$
$p\left(x_1\right)=p$
$p\left(x_2\right)=1-p$
$q\left(x_1\right)=q$
$q\left(x_2\right)=1-q$

真实分布的信息熵为0
此时KL散度等于交叉熵
如果没有真实分布则KL散度

CrossEntropyLoss()
entropy = nn.CrossEntropyLoss()
input = torch.tensor([[-0.7715,-0.6205,-0.2562]])
target = torch.tensor([0])
output = entropy(input, target)

$loss\left(x,class\right)=-log\frac{exp\left(x\left[class\right]\right)}{\sum_{j}exp\left(x\left[j\right]\right)}=-x\left[class\right]+log\sum_{j}exp\left(x\left[j\right]\right)$
注意以e为底数