交叉熵损失函数
交叉熵是极大似然估计的直接产物,常在分类问题中作为logistic回归和neural network的损失函数出现(据说在回归问题中最小均方误差使用较多)。
在优化过程中,函数的凸性对优化有较大影响,对于凸函数,局部最优解等同于全局最优解,因而能够通过基于梯度的方法找到全局最优解,而非凸函数局部最优解不等于全局最优解,使用基于梯度的方法不能保证找到全局最优解。交叉熵的凸性较为复杂,它在logistic回归中是权重 w w 的凸函数,但在neural network中却不是凸的。下面证明这一结论。
softmax回归
二阶可微函数为(非严格)凸函数的充要条件为Hessian矩阵半正定,下面计算softmax回归的交叉熵的Hessian矩阵,简洁起见省去bias项。设目前面对的分类问题是k分类,则损失函数为
1{ ⋅} 1 { ⋅ } 是示性函数。
注意softmax函数的导数的特殊性:
令
aj=ewTjx∑kl=1ewTlx a j = e w j T x ∑ l = 1 k e w l T x
当 n≠j n ≠ j 时