在理解交叉熵损失函数之前,有必要先来说一下信息熵这个概念 信息熵 信息熵可以理解为信息杂乱程度的量化描述:信息越多,概率越均等则信息熵就越大;反之,信息越单一,概率越偏向其中某一个信息,那么熵值就越小 公式如下: H ( X ) = − ∑ i = 1 n P ( x ( i ) ) l o g P ( x ( i ) ) H(X)=-\sum _ {i=1}^n P(x^{(i)}) logP(x^{(i)}) H(X)=−