传统循环神经网络的问题 (吴恩达老师_学习笔记)

典型的循环神经网络具有两个显著问题

(1)无法利用后文信息,只能利用前面的序列数据

解决办法-双向循环神经网络

(2)梯度消失

举个语言例子:(1)“The cat, which already ate ……, was full.”,前后应该保持一致,因为cat是单数,所以应该用was。(2)“The cats, which ate ……, were full.”,cats是复数,所以用were

这个例子中的句子有长期的依赖关系,最前面的单词对句子后面的单词有影响。但是上图这种基本的RNN模型,不擅长捕获这种长期依赖效应。

因为RNN的反向传播同样会面临梯度消失的问题,较后面层的输出误差很难影响较前面层的计算,这意味着基本的RNN模型存在局部影响关系,输出主要与之前的几个数值输入有关。

解决办法:GRU 门控循环单元网络

对于偶尔出现的梯度爆炸问题,这很容易发现,因为在计算的过程中参数会大到崩溃出现NaN,解决办法是梯度修剪,当梯度向量大于某个阈值后,缩放梯度向量。

小总结

训练很深的神经网络时,随着层数的增加,导数有可能指数型的下降或者指数型的增加,我们可能会遇到梯度消失或者梯度爆炸的问题。

假如一个RNN处理1,000个时间序列的数据集,这就是一个1,000层的神经网络,这样的网络很容易遇到上述类型的问题。梯度爆炸基本上用梯度修剪就可以应对,但梯度消失需要改善模型本身结构。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值