算法面试之RNN激活函数、权重共享

持续战斗状态

已于 2022-05-09 17:56:17 修改

阅读量2.5k

点赞数 1

分类专栏：算法面试NLP必备知识文章标签： nlp 自然语言处理深度学习

于 2022-03-19 03:57:12 首次发布

本文链接：https://blog.csdn.net/weixin_43499457/article/details/123588340

版权

算法面试NLP必备知识专栏收录该内容

19 篇文章 10 订阅

订阅专栏

概述

模拟人的阅读顺序
N-Gram模型：认为一个词只和前面N-1个词有关
循环神经网络RNN理论上可以往前(后)看任意多个词
在这里插入图片描述
梯度消失或者梯度爆炸会导致梯度为0或NaN，进而无法继续训练更新参数。上述现象称之为RNN长程依赖问题。
通常来说，梯度爆炸更容易处理一些。因为梯度爆炸的时候，程序会收到NaN错误。也可以设置一个梯度阈值，当梯度超过这个阈值时直接截取。
梯度消失更难检测，更难处理。通常有三种缓解梯度消失的方法∶
1.初始化合理的权重值：初始化权重，使每个神经元尽可能躲开梯度消失的区域，如避免取极大或极小值。
2.选取合适的激活函数：如用relu代替sigmoid和tanh。
3.引入合理的记忆网络：如长短时记忆网络（LTSM）、Gated Recurrent Unit（GRU）等。

激活函数

sigmoid函数的导数值范围为(0,0.25]，反向传播时会导致梯度消失
tanh函数的导数值范围为 (0,1]，相对范围较大，但仍会导致梯度消失
sigmoid函数不是0中心对称，输出均大于0
tanh函数是0中心对称，可以使网络收敛的更好
ReLU函数的左侧导数为0，右侧导数恒为1，避免了小数的连乘，但反向传播中仍有权值的累乘。ReLU函数改善了“梯度消失”现象。

权重共享

即使采用了ReLU激活函数，只要W不是单位矩阵，梯度还是会出现消失或者爆炸的现象。
当采用ReLU作为循环神经网络中隐含层的激活函数时，只有当W的取值在单位矩阵附近时才能取得比较好的效果，因此需要将W初始化为单位矩阵。实验证明，初始化w为单位矩阵并使用ReLU激活函数在一些应用中取得了与长短期记忆模型相似的结果，并且学习速度比长短期记亿模型更快。

上一篇：算法面试之CNN以及其在NLP的应用
下一篇：算法面试之LSTM和GRU

注：本专题大部分内容来自于总结，若有侵权请联系删除。

持续战斗状态

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
1
评论
算法面试之RNN激活函数、权重共享

概述模拟人的阅读顺序N-Gram模型：认为一个词只和前面N-1个词有关循环神经网络RNN理论上可以往前(后)看任意多个词梯度消失或者梯度爆炸会导致梯度为0或NaN，进而无法继续训练更新参数。上述现象称之为RNN长程依赖问题。通常来说，梯度爆炸更容易处理一些。因为梯度爆炸的时候，程序会收到NaN错误。也可以设置一个梯度阈值，当梯度超过这个阈值时直接截取。梯度消失更难检测，更难处理。通常有三种缓解梯度消失的方法∶1.初始化合理的权重值：初始化权重，使每个神经元尽可能躲开梯度消失的区域，如避免取极
复制链接

扫一扫