神经网络的激活函数总结

SIGAI_csdn

于 2018-07-30 20:36:48 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习人工智能神经计算文章标签：机器学习人工智能神经网络激活函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sigai_csdn/article/details/81291671

版权

本文深入探讨了神经网络的激活函数，包括其作用和常见类型如Sigmoid、ReLU、ELU等的工程实现，并以Caffe为例展示了激活函数在深度学习框架中的具体应用。

摘要由CSDN通过智能技术生成

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

导言

激活函数在神经网络中具有重要的地位。在SIGAI之前的公众号文章“理解神经网络的激活函数”中，我们回答了3个关键的问题：

为什么需要激活函数？

什么样的函数能用作激活函数？

什么样的函数是好的激活函数？

这篇文章从理论的角度介绍了激活函数的作用。承接上篇，在今天这篇文章中，SIGAI将为大家介绍当前深度学习中常用的一些激活函数，包括它们的工程实现。我们将以Caffe为例。

激活函数实现的是一对一的变换，即用相同的函数对输入向量的每个分量进行映射，得到输出向量，输入和输出向量的维数相同：

其中x和y都是n维向量。写成分量的形式为：

在工程实现时，如果将激活函数作为一个单独的层，则在正向传播时对输入向量的每个分量计算激活函数值f(x)。在反向传播时对输入数据计算导数值f’(x)，然后乘以后一层送入的误差项，得到本层的误差项，送人前一层中：

如果你对反向传播算法的原理还不清楚，请阅读SIGAI之前的公众号文章“反向传播算法推导-全连接神经网络”。这里的乘法是向量逐元素对应相乘。由于激活函数没有需要学习训练得到的参数，因此无需根据误差项计算本层参数的导数值。

在神经网络的早期阶段，sigmoid函数，tanh被广为使用。在AlexNet出现之后，ReLU函数逐渐取代了这两个函数，得到了广泛使用，因为ReLU函数更不容易产生梯度消失问题。如果你对梯度消失问题，激活函数的饱和性还不清楚，请阅读我们之前的公众号文章“理解神经网络的激活函数”。

由于当前被提出的激活函数众多，为了便于大家理解与记忆，我们对此做了总结。各种常用的激活函数与它们的导数如下表所示：

根据这些函数的定义，我们很容易计算出它们的导数。

下面我们以Caffe为例，介绍这些激活函数的具体实现细节。在Caffe中，激活函数是一个单独的层，把它和全连接层，卷据层拆开的好处是更为灵活，便于代码复用和组合。因为无论是全连接层，还是卷据层，它们激活函数的实现是相同的，因此可以用一套代码来完成。

激活函数由神经元层完成，它们的基类是NeuronLayer，所有的激活函数层均从它派生得到，下面分别进行介绍，限于篇幅，我们只介绍一部分，其他的原理类似。此外，Dropout机制也由神经元层实现。

SigmoidLayer类实现了标准sigmo

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。