softmax函数

最新推荐文章于 2024-06-11 16:43:37 发布

这个函数可导

最新推荐文章于 2024-06-11 16:43:37 发布

阅读量2.1k

点赞数 16

分类专栏：深度学习文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/qq_62573714/article/details/137201403

版权

深度学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

softmax函数

在二分类任务时，经常使用sigmoid激活函数。而在处理多分类问题的时候，需要使用softmax函数。

softmax函数公式

softmax函数的公式如下：
${y_i}=softmax(x_i) = \frac{e^{x_{i}}}{\sum_{k=1}^{N}e^{x_{k}}}$
其中 ${x_i}$ 是输入向量的第 i 个元素。softmax函数的作用是将输入向量中的每个元素转换为其作为概率值的形式。

softmax函数的导数公式

即求 $y_{i}=\frac{e^{x_{i}}}{\sum_{k=1}^{N}e^{x_{k}}}$ 的导数。

观察可知， ${y_i}$ 是形如 ${y_i}=\frac{g(x)}{f(x)}$ 的函数。

求导公式： $\frac{\partial y_i}{\partial x}=\frac{g^{\prime}(x)h(x)-g(x)h^{\prime}(x)}{[h(x)]^2}$

类比可知， $e^{x_i}$ 相当于 ${g(x)}$ ； ${\sum_{k=1}^{N}e^{x_{k}}}$ 相当于 $h (x)$ 。

所以，要想得到softmax函数的导数，只需要分别求出 $e^{x_i}$ 和 ${\sum_{k=1}^{N}e^{x_{k}}}$ 的导数即可。

对于第 $i$ 个元素 ${x_i}$ ， $({\sum_{k=1}^{N}e^{x_{k}}})^{\prime}$ $=({e^{x_1}}+{e^{x_2}}+···+{e^{x_i}}+···+{e^{x_N}})^{\prime}$ ${e^{x_i}}$ 。

由于 ${k}$ 是从 $1$ 开始直到 $N$ 的，所以肯定能找到一个 $k$ 值与 ${i}$ 相等，使得 $({e^{x_k}})^{\prime}$ = $({e^{x_i}})^{\prime}$ = ${e^{x_i}}$ ；
而对于其他不等于 $i$ 的 $k$ 值， ${e^{x_k}}$ 相对于 ${x_i}$ 都是常数，求导变为0。

我们分两种情况来讨论softmax函数的求导。
设 $i$ 表示输入向量的第 $i$ 个元素， $j$ 表示输入向量的第 $j$ 个元素。

当 $i \neq = j$ 时

我们关心的是第 $i$ 个输入变量 ${x_i}$ 如何受到其他变量 ${x_j}$ 的影响，计算的是 ${y_i}$ 对第 $j$ 个元素的偏导数。
此时， $({e^{x_i}})^{\prime}=0$ ， $({e^{x_j}})^{\prime}={x_j}$
$\frac{\partial y_{i}}{\partial x_{j}}=\frac{\partial\frac{e^{x_{i}}}{\sum_{k=1}^{N}e^{x_{k}}}}{\partial x_{j}}=\frac{0-e^{x_{i}}e^{x_{j}}}{\sum^{2}}=-\frac{e^{x_{i}}}{\sum}\frac{e^{x_{j}}}{\sum}=-y_{i}y_{j}$
这个结果表明，第 $i$ 个输出变量 ${y_i}$ 对第 ${j}$ 个输入变量 ${x_j}$ 的偏导数是负的，表示它们是相互抑制的关系。因此，在这种情况下，当其中一个变量的得分增加时，其他变量的相对概率就会减少，这就是所谓的“竞争效应”。

当 $i = j$ 时

我们关心的是第 $i$ 个输入变量 ${x_i}$ 如何受到自身变化的影响，计算的是 ${y_i}$ 对第 $i (或 j)$ 个元素的偏导数。
此时， $({e^{x_i}})^{\prime}=({e^{x_j}})^{\prime}={x_i}={x_j}$
$\frac{\partial y_{i}}{\partial x_{j}}=\frac{\partial\frac{e^{x_{i}}}{\sum_{k=1}^{N}e^{x_{k}}}}{\partial x_{j}}=\frac{e^{x_{i}}\sum-e^{x_{i}}e^{x_{j}}}{\sum^{2}}=\frac{e^{x_{i}}}{\sum}\frac{\sum-e^{x_{j}}}{\sum}=y_{i}(1-y_{j})$

这个结果表明，第 $i$ 个输出变量 ${y_i}$ 对第 ${i}$ 个输入变量 ${x_i}$ 的偏导数是正的，表示它们是相互促进的关系。因此，在这种情况下，当 ${x_i}$ 的得分增加时，他的输出概率 ${y_i}$ 也会相应的增加，但同时其他变量的输出概率会减少，以保证所有输出概率的总和为1。

softmax溢出问题

参考文章

有效防止softmax计算时上溢出（overflow）和下溢出（underflow）的方法

上溢出（overflow）和下溢出（underflow）

在使用softmax函数时，可能会出现两种数值问题：上溢出（overflow）和下溢出（underflow）。

上溢出发生在softmax函数的输入值非常大时。具体来说，当softmax函数的某个输入值非常大，以至于经过指数运算后得到的值大于数据类型容许的最大数字或者超出了计算机能够表示的范围时，就会出现上溢出（overflow）。这时，softmax函数的输出值会被表示为无穷大（inf），这在数值计算中可能导致一些问题，因为无穷大的值会导致后续的除法运算失败。

下溢出则发生在softmax函数的输入值非常小，接近于零时。由于计算机使用浮点数表示实数，当数值小到一定程度时，可能会被四舍五入为0。在softmax函数中，如果分母接近于0，那么在计算概率时可能会导致除以零的错误，进而引发数值不稳定或程序崩溃。

解决方法

令 $M = max({x_i}),i=1,2,3,...,N$ ，即 $M$ 为所有 ${x_i}$ 中最大的值，那么只需要把计算 $softmax(x_i)$ 的值，改为计算 $softmax(x_i-M)$ 的值，就可以解决上溢出、下溢出的问题，并且计算结果理论上仍然和 $softmax(x_i)$ 保持一致。

举个例子
设 $x_1=3，x_2=1，x_3=-3$ ，我们常用“常规”的方法来计算 $y_2$ ，即
$\begin{aligned}\frac{e^{x_2}}{e^{x_1}+e^{x_2}+e^{x_3}}&=\frac{e^1}{e^3+e^1+e^{-3}}=\frac{2.7}{20+2.7+0.05}\approx0.12\end{aligned}$
现在我们改成：
$\begin{aligned}\frac{e^{x_2-M}}{e^{x_1-M}+e^{x_2-M}+e^{x_3-M}}&=\frac{e^{1-3}}{e^{3-3}+e^{1-3}+e^{-3-3}}\approx0.12\end{aligned}$
其中， $M = 3$ 是 $x_1，x_2，x_3$ 中的最大值。
可见计算结果并未改变。这是怎么做到的呢？通过简单的代数运算就可以参透其中的“秘密”：
$\frac{e^{x_2}}{e^{x_1}+e^{x_2}+e^{x_3}}=\frac{\frac{e^{x_2}}{e^M}}{\frac{e^{x_1}+e^{x_2}+e^{x_3}}{e^M}}=\frac{\frac{e^{x_2}}{e^M}}{\frac{e^{x_1}}{e^M}+\frac{e^{x_2}}{e^M}+\frac{e^{x_3}}{e^M}}=\frac{e^{(x_2-M)}}{e^{\left(x_1-M\right)}+e^{\left(x_2-M\right)}+e^{\left(x_3-M\right)}}$
通过这样的变换，对任何一个 xi，减去M之后，e 的指数的最大值为0，所以不会发生上溢出；同时，分母中也至少会包含一个值为1的项，所以分母也不会下溢出（四舍五入为0）。

延伸问题

如果softmax函数中的分子发生下溢出，也就是 ${x_i}$ 为负数，且 ${|x_i|}$ 很大，此时分母是一个极小的正数，有可能四舍五入为0的情况。此时，如果我们把softmax函数的计算结果再拿去计算 log，即 log softmax，其实就相当于计算 log(0) ，所以会得到 −∞ ，但这实际上是错误的，因为它是由舍入误差造成的计算错误。

解决方法

$\begin{aligned} \log[y_i]&=\log\left(\frac{e^{x_i}}{e^{x_1}+e^{x_2}+\cdots e^{x_n}}\right)\\ &=\log\left(\frac{\frac{e^{x_i}}{e^M}}{\frac{e^{x_1}}{e^M}+\frac{e^{x_2}}{e^M}+\cdots\frac{e^{x_n}}{e^M}}\right)\\ &=\log\left(\frac{e^{(x_i-M)}}{\sum_j^ne^{(x_j-M)}}\right)\\ &=\log\Bigl(e^{(x_i-M)}\Bigr)-\log\left(\sum_j^ne^{(x_j-M)}\right)\\ &=(x_i-M)-\log\left(\sum_j^ne^{(x_j-M)}\right) \end{aligned}$
可以看到，在最后的表达式中，避免计算了 ${e^{(x_i-M)}}$ ，而仅仅是 $x_i-M$ 难以超越数据类型容许的范围；后面的 $\log\left(\sum_j^ne^{(x_j-M)}\right)$ 实际上是一种类似"LogSumExp技巧"的聪明方式，他满足：
$\mathrm{0\leq\log(\sum_{i=1}^ne^{x_i-M})\leq\log(n)}$ 这样就解决了softmax的溢出问题。