2020-10-20 吴恩达DL学习-C5 序列模型-W1 循环序列模型(1.8 带有神经网络的梯度消失-深度网络(导数指数型下降),后面的输出反向传播很难影响前面的层/补充:梯度爆炸用梯度修剪解决)

本文探讨了RNN在处理长期依赖问题时遭遇的梯度消失挑战,解释了为何基本RNN模型难以捕捉这类效应。深度网络中,反向传播的梯度在传播过程中逐渐减弱,使得前面的层难以被有效更新。此外,虽然梯度爆炸可以通过梯度修剪解决,但梯度消失问题更为复杂。下节课将介绍GRU,一种能有效缓解梯度消失并处理长期依赖的门控循环单元网络。
摘要由CSDN通过智能技术生成

1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文):http://www.ai-start.com/dl2017/
3.github课件+作业+答案:https://github.com/stormstone/deeplearning.ai

1.8 带有神经网络的梯度消失 Vanishing gradients with RNNs

你已经了解了RNN时如何工作的了,并且知道如何应用到具体问题上,比如命名实体识别,比如语言模型,你也看到了怎么把反向传播用于RNN。其实,基本的RNN算法还有一个很大的问题,就是梯度消失的问题。这节课我们会讨论,在下几节课我们会讨论一些方法用来解决这个问题。
在这里插入图片描述

如上图,你已经知道RNN就像这个样子,现在我们举个语言模型的例子。

假设你看到这个句子,

  • “The cat, which already ate ……, was full.”,语法上前后应该保持一致,因为cat是单数,所以应该用was。
  • “The cats, which ate ……, were full.”,cats是复数,所以用were。

这个例子中的句子有长期的依赖,最前面的单词对句子后面的单词有影响。但是我们目前见到的基本的RNN模型(如上图),不擅长捕获这种长期依赖效应,解释一下为什么。

长期的依赖:最前面的单词对句子后面的单词有影响。

你应该还记得之前讨论的训练很深的网络,我们讨论了梯度消失的问题。

梯度消失:很深的网络,反向传播,后面的输出很难影响前面的层

在这里插入图片描述

比如说如上图,一个很深很深的网络,100层,甚至更深。对这个网络从左到右做前向传播(蓝色线)然后再反向传播(红色线)。我们知道如果这是个很深的NN,从输出得到的梯度很难传播回去,很难影响靠前层的权重(上图左边红色圆圈),很难影响前面层的计算。
在这里插入图片描述

如上图,对于有同样问题的RNN,首先从左到右前向传播(蓝色线),然后反向传播(红色线)。但是反向传播会很困难,因为同样的梯度消失的问题,后面层的输出误差( y ^ < T y > \hat y^{<T_y>} y^<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值