Sigmoid函数（logsig）求导

亲亲Friends

已于 2024-08-07 09:54:05 修改

阅读量1.1w

点赞数 6

分类专栏：神经网络机器学习文章标签： Sigmoid 激活函数求导 logistic logsig

于 2020-05-15 22:33:17 首次发布

本文链接：https://blog.csdn.net/u014261408/article/details/106150098

版权

机器学习同时被 2 个专栏收录

7 篇文章

订阅专栏

神经网络

5 篇文章

订阅专栏

本文详细介绍了Sigmoid函数，即logistic函数的导数推导过程，指出其在神经网络中可能导致梯度消失的问题。在(-10, 10)之外，函数变化微小，当x超出此范围时，梯度下降算法可能会遇到困难。通过复习求导法则，如乘法法则、除法法则和复合函数求导法则，深入理解Sigmoid函数的导数表达式σ(x)⋅(1−σ(x))。" 125817186,14822733,Activiti工作流框架实现请假流程自动化,"['工作流', 'Java', '后端开发', '流程自动化']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

通常情况下，我们所说的Sigmoid函数定义如下：
$\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1}.$
它的形状如下：
在这里插入图片描述

导数如下：
$\frac{d\sigma(x)}{dx}=\sigma(x)\cdot (1-\sigma(x)).$
本篇博文讲 $\sigma(x)$ 导数的推导过程。

注意

Sigmoid函数实际上是指形状呈S形的一组曲线[1]，上述公式中的 $\sigma(x)$ 正式名称为logistic函数，为Sigmoid函数簇的一个特例（这也是 $\sigma(x)$ 的另一个名字，即 $l o g s i g$ 的命名来源）。我们经常用到的hyperbolic tangent函数，即 $\tanh x=\frac{e^x-e^{-x}}{e^x+e^{-x}}$ 也是一种sigmoid函数。

下文依旧称 $\sigma(x)$ 为logistic函数。

logistic函数的有效工作范围是 $(- 10, 10)$ ，从它的图像也可以看出来：在 $(- 10, 10)$ 以外，函数值的变化非常小。那么问题来了，如果用logistic函数当神经网络的激活函数，当 $x > 10$ 或者 $x < - 10$ 时会出现梯度消失（gradient vanishing）的问题，即 $\frac{d\sigma(x)}{dx}\approx 0$ 。换句话说，梯度下降算法会进入死胡同。这一点要特别注意。

求导过程[2]

$\frac{d\sigma(x)}{dx}=\frac{d}{dx}\left[\frac{1}{1+e^{-x}}\right] = \dfrac{d}{dx} \left( 1 + \mathrm{e}^{-x} \right)^{-1} = -(1 + e^{-x})^{-2}(-e^{-x})$
$\dfrac{e^{-x}}{\left(1 + e^{-x}\right)^2}$
$\dfrac{1}{1 + e^{-x}\ } \cdot \dfrac{e^{-x}}{1 + e^{-x}}$
$\dfrac{1}{1 + e^{-x}\ } \cdot \dfrac{(1 + e^{-x}) - 1}{1 + e^{-x}}$
$\dfrac{1}{1 + e^{-x}\ } \cdot \left( \dfrac{1 + e^{-x}}{1 + e^{-x}} - \dfrac{1}{1 + e^{-x}} \right)$
$\dfrac{1}{1 + e^{-x}\ } \cdot \left( 1 - \dfrac{1}{1 + e^{-x}} \right)$
$\sigma(x) \cdot (1 - \sigma(x))$