其实我们常用的 softmax 交叉熵损失函数,和 最大似然估计是等价的。
首先来看 softmax 交叉熵目标函数是什么样子的: 对于N个样本
obj=−∑nNy(n)jlogf(x(n);w)j=−∑nNlogf(x(n);w)j
j : 第
如果用最大似然估计呢?即:最大化已出现的样本的概率
objlogobj=∏nNp(y(n)|f(x(n);w))=∑nNlogp(y(n)|f(x(n);w))=∑nNlogf(x(n);w)j
最大化上式等价于最小化 负的上式,所以和 softmax 交叉熵是等价的。
所以,softmax 交叉熵也是想 最大化 已出现样本的概率。