softmax函数实际就是一个归一化函数,以一种特殊的方式将一个向量归一化成和为1。在基于神经网络的分类任务中,经常用softmax函数将神经网络的多维输出
归一化成一个概率向量
,如式
通常认为是样本
属于第
类的概率
,
为网络参数。
概率输出经常用似然函数(likelihood function)作为loss函数。在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。单个样本的似然性如式(2)
为one-hot 向量。
一般期望得到使得概率最大的参数值,也就是极大似然估计思想。
但是由于下溢问题,一般取对数,进一步转化为最小化问题即为
经过变形可得下式:
解决此优化问题,可以用梯度下降法:需要求导;
现在求
当,
当,
所以
则