通常情况下,我们所说的Sigmoid函数定义如下:
σ ( x ) = 1 1 + e − x = e x e x + 1 . \sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1}. σ(x)=1+e−x1=ex+1ex.
它的形状如下:
导数如下:
d σ ( x ) d x = σ ( x ) ⋅ ( 1 − σ ( x ) ) . \frac{d\sigma(x)}{dx}=\sigma(x)\cdot (1-\sigma(x)). dxdσ(x)=σ(x)⋅(1−σ(x)).
本篇博文讲 σ ( x ) \sigma(x) σ(x)导数的推导过程。
注意
Sigmoid函数实际上是指形状呈S形的一组曲线[1],上述公式中的 σ ( x ) \sigma(x) σ(x)正式名称为logistic函数,为Sigmoid函数簇的一个特例(这也是 σ ( x ) \sigma(x) σ(x)的另一个名字,即 l o g s i g logsig logsig的命名来源)。我们经常用到的hyperbolic tangent函数,即 tanh x = e x − e − x e x + e − x \tanh x=\frac{e^x-e^{-x}}{e^x+e^{-x}} tanhx=ex+e−xex−e−x也是一种sigmoid函数。
下文依旧称 σ ( x ) \sigma(x) σ(x