传统循环神经网络的问题（吴恩达老师_学习笔记）

最新推荐文章于 2022-11-11 19:04:50 发布

瓜波牛排

最新推荐文章于 2022-11-11 19:04:50 发布

阅读量702

点赞数

分类专栏：深度学习文章标签：循环神经网络梯度消息深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Amigo_1997/article/details/109624304

版权

深度学习专栏收录该内容

41 篇文章 26 订阅

订阅专栏

典型的循环神经网络具有两个显著问题

（1）无法利用后文信息，只能利用前面的序列数据。

解决办法-双向循环神经网络

（2）梯度消失。

举个语言例子：（1）“The cat, which already ate ……, was full.”，前后应该保持一致，因为cat是单数，所以应该用was。（2）“The cats, which ate ……, were full.”，cats是复数，所以用were。

这个例子中的句子有长期的依赖关系，最前面的单词对句子后面的单词有影响。但是上图这种基本的RNN模型，不擅长捕获这种长期依赖效应。

因为RNN的反向传播同样会面临梯度消失的问题，较后面层的输出误差很难影响较前面层的计算，这意味着基本的RNN模型存在局部影响关系，输出主要与之前的几个数值输入有关。

解决办法：GRU 门控循环单元网络

对于偶尔出现的梯度爆炸问题，这很容易发现，因为在计算的过程中参数会大到崩溃出现NaN，解决办法是梯度修剪，当梯度向量大于某个阈值后，缩放梯度向量。

小总结：

训练很深的神经网络时，随着层数的增加，导数有可能指数型的下降或者指数型的增加，我们可能会遇到梯度消失或者梯度爆炸的问题。

假如一个RNN处理1,000个时间序列的数据集，这就是一个1,000层的神经网络，这样的网络很容易遇到上述类型的问题。梯度爆炸基本上用梯度修剪就可以应对，但梯度消失需要改善模型本身结构。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
传统循环神经网络的问题（吴恩达老师_学习笔记）

典型的循环神经网络具有两个显著问题（1）无法利用后文信息，只能利用前面的序列数据。解决办法-双向循环神经网络（2）梯度消失。举个语言例子：（1）“The cat, which already ate ……, was full.”，前后应该保持一致，因为cat是单数，所以应该用was。（2）“The cats, which ate ……, were full.”，cats是复数，所以用were。这个例子中的句子有长期的依赖关系，最前面的单词对句子后面的单词有影响。但是上图这种基本的RN
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。