关于激励函数的一些思考

最新推荐文章于 2024-08-02 15:42:29 发布

小脆脆

最新推荐文章于 2024-08-02 15:42:29 发布

阅读量1.7k

点赞数 1

分类专栏：深度学习文章标签：深度学习激励函数

本文链接：https://blog.csdn.net/qq_22625309/article/details/73518893

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在学习神经网络的时候，会发现神经网络中的各个神经元代表的其实就一种运算，这=这种运算就是激励函数，激励函数一般都是非线性的，为什么呢？

因为线性函数有一个特点，那就是线性函数的组合还是线性函数，这也就以为这不论你所设计的神经网络有多深，多么复杂，只要里面用到的激励函数是线性函数，那么这些层层之间都是线性函数的一个组合，最终整个网络依然是线性的，可以用一个矩阵来代替，跟只有一层网络是没有区别的，所以线性激励函数的表达能力是有限的，不能描述现实生活中存在的大部分的问题，故我们采用非线性的激励函数，以下是神经网络中常用的几种激励函数：

1、sigmod函数

sigmoid导数曲线：

sigmod函数有几个特点：将输入映射到区间(0,1)，当输入偏离0附近的时候，输出的变化非常缓慢，达到饱和，从sigmo函数的导数是一个区间(0,1)上的抛物线，当sigmo函数的取值是1/2的时候，其导数达到最大值1/4.

根据这几个特性就可以总结出来sigmo作为激励函数的一些优缺点。

优点：1、将输入映射到(0,1)上，这在一些分类问题中作为输出，归一化后就可以表征被分为该类的概率，会带来一些计算上的方便。

2、在整个定义域都是处处可导的，在梯度反向传播的时候求导比较方便

缺点：收敛速度比较慢，原因是因为当达到sigmoid的饱和区的时候，输入的变化不会对输出带来什么影响，反过来也就是说sigmo函数在饱和区的导数非常小，在梯度反向传播过程中会带来梯度的大量衰减，从其导数的曲线上可以看出，其反向传播过程中最多只能向前传递原梯度的1/4，那么再经过神经网络的前一层传递，梯度传递减少至原梯度的1/16，整个呈指数级降低，所以对于神经网络中前面几层的参数调整是非常有限的，这也就导致了整个神经网络的训练收敛速度非常慢。

2、tanh函数