sigmoid函数、tanh函数、softmax函数及求导

最新推荐文章于 2024-03-18 20:09:37 发布

Arsener_gong

最新推荐文章于 2024-03-18 20:09:37 发布

阅读量3.9k

点赞数 2

本文链接：https://blog.csdn.net/qq_38032064/article/details/90599547

版权

机器学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

sigmoid函数和tanh函数都是激活函数，接收一个输入，产生一个输出。这里的求导是对激活函数求导。而softmax函数是一个多输入多输出的激活函数，这里提到的求导是对经过softmax函数后进行交叉熵计算得到的损失函数求导。

sigmoid函数及求导

sigmoid激活函数形式为：
$\sigma (x)=sigmoid(x)=\frac{1}{1+e^{-x}}$
其导数为：
$\frac{\text d \sigma(x)}{\text dx}=\sigma(x)(1-\sigma(x))$

tanh函数及求导

tanh激活函数形式为：
$tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$
其导数为：
$\frac{\text d tanh(x)}{\text dx}=1-(tanh(x))^2$

softmax函数及求导

sigmoid函数以及tanh函数的求导都是比较简单的，而softmax函数的求导则稍显复杂。详细求导过程详见我的另一篇博客softmax函数及交叉熵函数求导，这里只是总结三种函数的求导。
这里以神经网络多分类问题为例，假设输出层有 $n$ 个神经元，输出为 $z_1,z_2,...,z_n$ ，经过softmax函数后的输出为 $a_1,a_2,...,a_n$ ， $a_i$ 的计算公式为：
$a_i=\frac{e^{z_i}}{\sum_{j=1}^{n}{e^{z_j}}}$
假设真实标签为 $y_1,y_2,...,y_n$ ，由于是分类问题，因此 $y_i$ 的取值为0或1，并且 $\sum_{i=1}^{n}y_i=1$ 。则交叉熵损失函数为：
$L(\bold{a},\bold{y})=-\sum_{i}^ny_i\ln a_i$
则其导数为：
$\frac{\partial L}{\partial z_i}=a_i-y_i$