1.首先明白信息论的以下概念:
自信息:I(x)代表信息的多少
香农熵H(X):代表一个分布下自信息的期望,也就是自信息的均值。
交叉熵/cross_entropy/H(P,Q):
注意:上图中的DL(P||Q)指的是KL散度,DEEP LEARNING中模糊了交叉熵 和KL散度的区分,本质上两者是不同的,但deep中用交叉熵代替KL散度来衡量两个分布的差距,具体为什么可以就是因为H(P)=H(target)为定值。
2.pytorch中的cross_entropy,log_softmax,nll_loss
为了方便理解以图像分类为例子 我们有target:(N*C)的Onehot形式(如【0,0,1,0,0】)的标签和pred(N*C)的网络预