LSTM 两个激励函数区别sigmoid 和tanh

Michael_Shentu

已于 2023-12-19 22:35:05 修改

阅读量4.1w

点赞数 11

分类专栏：深度学习文章标签： lstm 机器学习深度学习

于 2017-08-06 22:58:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenxiaoming77/article/details/76795445

版权

深度学习专栏收录该内容

10 篇文章 3 订阅

订阅专栏

关注WX公众号： commindtech77，获得数据资产相关白皮书下载地址

回复关键字：推荐系统
下载《新闻资讯个性化推荐系统源码及白皮书》

知乎主页：申小明77 - 知乎

sigmoid 用在了各种gate上，产生0~1之间的值，这个一般只有sigmoid最直接了。
tanh 用在了状态和输出上，是对数据的处理，这个用其他激活函数或许也可以。

1. sigmoid激活函数

sigmoid将一个实数输入映射到[0,1]范围内，如下图（左）所示。使用sigmoid作为激活函数存在以下几个问题：

梯度饱和。当函数激活值接近于0或者1时，函数的梯度接近于0。在反向传播计算梯度过程中：δ(l)=(W(l))Tδ(l+1)∗f′(z(L))，每层残差接近于0，计算出的梯度也不可避免地接近于0。这样在参数微调过程中，会引起参数弥散问题，传到前几层的梯度已经非常靠近0了，参数几乎不会再更新。
函数输出不是以0为中心的。我们更偏向于当激活函数的输入是0时，输出也是0的函数。

因为上面两个问题的存在，导致参数收敛速度很慢，严重影响了训练的效率。因此在设计神经网络时，很少采用sigmoid激活函数。

这里写图片描述

2. tanh激活函数

tanh函数将一个实数输入映射到[-1,1]范围内，如上图（右）所示。当输入为0时，tanh函数输出为0，符合我们对激活函数的要求。然而，tanh函数也存在梯度饱和问题，导致训练效率低下。

3.Relu激活函数

Relu激活函数（The Rectified Linear Unit）表达式为：f(x)=max(0,x)。如下图（左）所示：

这里写图片描述

相比sigmoid和tanh函数，Relu激活函数的优点在于：

梯度不饱和。梯度计算公式为：1{x>0}。因此在反向传播过程中，减轻了梯度弥散的问题，神经网络前几层的参数也可以很快的更新。
计算速度快。正向传播过程中，sigmoid和tanh函数计算激活值时需要计算指数，而Relu函数仅需要设置阈值。如果x<0,f(x)=0，如果x>0,f(x)=x。加快了正向传播的计算速度。

因此，Relu激活函数可以极大地加快收敛速度，相比tanh函数，收敛速度可以加快6倍（如上图（右）所示）。

关注

11
点赞
踩
43

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。