softmax的数值溢出问题

莫叶何竹

已于 2024-06-18 08:11:53 修改

阅读量544

点赞数 25

分类专栏：机器学习算法踩过的坑文章标签：机器学习 softmax数值溢出 softmax

于 2024-06-18 08:11:19 首次发布

本文链接：https://blog.csdn.net/weixin_40779727/article/details/139759587

版权

踩过的坑同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

机器学习算法

3 篇文章 0 订阅

订阅专栏

softmax是deep learning常用的一个操作，虽然有很多现成的包可以调，但在某些场景下需要自己实现。本文简单探讨一下softmax可能会出现的数值稳定性问题

解决上溢出问题

$\begin{aligned} \text{Softmax}(x_{i}) &= \frac{\exp(x_i) }{ \sum_{j=1}^{N} \exp(x_j)} \\ &= \frac{\exp(x_i) / \exp{(x_{max})}}{ \sum_{j=1}^{N} \exp(x_j) / \exp{(x_{max})} } \\ &= \frac{\exp(x_i - x_{max})}{ \sum_{j=1}^{N} \exp(x_j - x_{max})} \end{aligned} \tag{1}$

当 $x_{max}$ 很大时，分子可能出现 $0$ ，当和 $\log$ 联用时（如计算cross-entropy损失），会出现 $l o g (0)$ ，此时应当进行如下变形。

$\begin{aligned} \log \mathrm{softmax}(x_i) &= \log \Bigr( {\frac{\exp(x_i - x_{max})}{ \sum_{j=1}^{N} \exp(x_j - x_{max})}} \Bigr) \\ & = \log \exp(x_i - x_{max}) - \log { \sum_{j=1}^{N} \exp(x_j - x_{max}) } \\ & = (x_i - x_{max}) - \log { \underbrace{\sum_{j=1}^{N} \exp(x_j - x_{max}) }_{\gt 1} } \end{aligned} \tag{2}$

莫叶何竹

关注

25
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
softmax的数值溢出问题

softmax是deep learning常用的一个操作，虽然有很多现成的包可以调，但在某些场景下需要自己实现。本文简单探讨一下浮现softmax可能会出现的数值稳定性问题。联用时（如计算cross-entropy损失），会出现。，此时应当进行如下变形。很大时，分子可能出现。
复制链接

扫一扫

专栏目录