激活函数

最新推荐文章于 2024-08-02 20:03:48 发布

Yingying_code

最新推荐文章于 2024-08-02 20:03:48 发布

阅读量4k

点赞数

转载自：原文

神经网络为什么要使用激活函数？
首先提一下激活函数的一般形式，在我平时的学习中，我遇到过的一般是这四种形式，simoid,tanh,ReLu,softplus。

s i m o i d 函 数 也 称 S 曲 线 ： f (x) = 1 1 + e - x

t a n h : f (x) = t a n h (x)

R e L U ： f (x) = m a x (x, 0)

s o f t m a x : f (x) = l o g (1 + e x p (x))

激活函数，并不是去激活什么，而是指如何把“激活的神经元的特征”通过函数把特征保留并映射出来（保留特征，去除一些数据中是的冗余），这是神经网络能解决非线性问题关键。

激活函数是用来加入非线性因素的，因为线性模型的表达力不够

这句话字面的意思很容易理解，但是在具体处理图像的时候是什么情况呢？我们知道在神经网络中，对于图像，我们主要采用了卷积的方式来处理，也就是对每个像素点赋予一个权值，这个操作显然就是线性的。但是对于我们样本来说，不一定是线性可分的，为了解决这个问题，我们可以进行线性变化，或者我们引入非线性因素，解决线性模型所不能解决的问题。

这里插一句，来比较一下上面的那些激活函数，因为神经网络的数学基础是处处可微的，所以选取的激活函数要能保证数据输入与输出也是可微的，运算特征是不断进行循环计算，所以在每代循环过程中，每个神经元的值也是在不断变化的。

这就导致了tanh特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果显示出来，但有是，在特征相差比较复杂或是相差不是特别大时，需要更细微的分类判断的时候，sigmoid效果就好了。

还有一个东西要注意，sigmoid 和 tanh作为激活函数的话，一定要注意一定要对 input 进行归一话，否则激活后的值都会进入平坦区，使隐层的输出全部趋同，但是 ReLU 并不需要输入归一化来防止它们达到饱和。

构建稀疏矩阵，也就是稀疏性，这个特性可以去除数据中的冗余，最大可能保留数据的特征，也就是大多数为0的稀疏矩阵来表示。

其实这个特性主要是对于Relu，它就是取的max(0,x)，因为神经网络是不断反复计算，实际上变成了它在尝试不断试探如何用一个大多数为0的矩阵来尝试表达数据特征，结果因为稀疏特性的存在，反而这种方法变得运算得又快效果又好了。

所以我们可以看到目前大部分的卷积神经网络中，基本上都是采用了ReLU 函数

-----------------------------------------------------------------------------------------------------------------------------------------

转载自：原文

最近在看深度学习的东西，激活函数是其中的一个环节，就从网上的一搜寻关于激活函数的介绍

激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。

常用激活函数

激活函数的选择是构建神经网络过程中的重要环节，下面简要介绍常用的激活函数。

(1) 线性函数 ( Liner Function )

神经网络

(2) 斜面函数 ( Ramp Function )

神经网络

(3) 阈值函数 ( Threshold Function )

神经网络

图2 . 阈值函数图像

以上3个激活函数都是线性函数，下面介绍两个常用的非线性激活函数。

(4) S形函数 ( Sigmoid Function )

神经网络

　　该函数的导函数：

神经网络

(5) 双极S形函数

神经网络

　　该函数的导函数：

神经网络

　　S形函数与双极S形函数的图像如下：

神经网络

图3. S形函数与双极S形函数图像

　　双极S形函数与S形函数主要区别在于函数的值域，双极S形函数值域是(-1,1)，而S形函数值域是(0,1)。

　　由于S形函数与双极S形函数都是可导的(导函数是连续函数)，因此适合用在BP神经网络中。（BP算法要求激活函数可导）

(5) 双曲正切函数

　　该函数的导函数：

(6)ReLu(Rectified Linear Units)函数

- hard ReLU: g(x)=max(0,x)
- Noise ReLU max(0, x+N(0, σ(x)).

　　该函数的导函数：

g(x)'=0或1

（7）maxout 函数

这里的W是3维的，尺寸为d*m*k，其中d表示输入层节点的个数，m表示隐含层节点的个数，k表示每个隐含层节点对应了k个”隐隐含层”节点，这k个”隐隐含层”节点都是线性输出的，而maxout的每个节点就是取这k个”隐隐含层”节点输出值中最大的那个值。因为激发函数中有了max操作，所以整个maxout网络也是一种非线性的变换。