机器学习中会常见到softmaxLoss,逻辑回归损失(或者叫交叉熵损失),这两种损失的来源可以由两方面考虑,一方面可以看做是来源于概率论中的极大似然估计,此部分可参见机器学习(二),另一方面可以看做是来源于信息论中的交叉熵损失。
本文主要从信息论中交叉熵的角度来解读这两种损失的由来。
softmax损失与逻辑回归损失的来源
交叉熵的定义
信息量:事件X=x0的信息量为
I(X0)=−log(p(x0))
熵:信息量的度量/期望,对于二值事件来说,
Entropy=−[p(X=x0)log(p(X=x0))+(1−p(X=x0))log(1−p(X=x0))]