凸还是非凸？交叉熵在softmax和neural network中的不同凸性

最新推荐文章于 2024-05-13 20:32:49 发布

RHONYN

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量5.9k

点赞数 6

分类专栏： loss function 文章标签： loss function cross entropy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/RHONYN/article/details/80342126

版权

交叉熵损失函数

交叉熵是极大似然估计的直接产物，常在分类问题中作为logistic回归和neural network的损失函数出现（据说在回归问题中最小均方误差使用较多）。

在优化过程中，函数的凸性对优化有较大影响，对于凸函数，局部最优解等同于全局最优解，因而能够通过基于梯度的方法找到全局最优解，而非凸函数局部最优解不等于全局最优解，使用基于梯度的方法不能保证找到全局最优解。交叉熵的凸性较为复杂，它在logistic回归中是权重 $w$ 的凸函数，但在neural network中却不是凸的。下面证明这一结论。

softmax回归

二阶可微函数为（非严格）凸函数的充要条件为Hessian矩阵半正定，下面计算softmax回归的交叉熵的Hessian矩阵，简洁起见省去bias项。设目前面对的分类问题是k分类，则损失函数为

C (w_{1}, w_{2}, \dots, w_{k}) = - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 1}^{k} 1 {y^{(i)} = j} \log \frac{e^{w_{j}^{T} x^{(i)}}}{\sum_{l = 1}^{k} e^{w_{l}^{T} x^{(i)}}}]

$C(w_1, w_2,\cdots, w_k)=-\frac1m\left[\sum_{i=1}^m\sum_{j=1}^k 1\{y^{(i)}=j\}\log\frac{e^{w^T_jx^{(i)}}}{\sum_{l=1}^ke^{w^T_lx^{(i)}}}\right]$

1{ ⋅} 1 { ⋅ } $1\{\cdot\}$ 是示性函数。

注意softmax函数的导数的特殊性：

令

$a j = e w T j x \sum k l = 1 e w T l x$ $a_j=\frac{e^{w^T_jx}}{\sum_{l=1}^ke^{w^T_lx}}$
当 $n\neq j$ 时

最低0.47元/天解锁文章

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
凸还是非凸？交叉熵在softmax和neural network中的不同凸性

交叉熵损失函数交叉熵是极大似然估计的直接产物，常在分类问题中作为logistic回归和neural network的损失函数出现（据说在回归问题中最小均方误差使用较多）。在优化过程中，函数的凸性对优化有较大影响，对于凸函数，局部最优解等同于全局最优解，因而能够通过基于梯度的方法找到全局最优解，而非凸函数局部最优解不等于全局最优解，使用基于梯度的方法不能保证找到全局最优解。交叉熵的凸性较为复...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。