deeplearning.ai - 循环神经网络 (Recurrent Neural Networks)

序列模型
吴恩达 Andrew Ng

Why sequence models

Examples

Speech recognition, Music generation, Sentiment classification, DNA sequence analysis, Machine translation, Video activity recognition, Name entity recognition

Notation

  • X(i)<t>: X ( i ) < t > : 第i个输入样本的第t个元素

  • T(i)X: T X ( i ) : 第i个输入样本的长度

  • 这里写图片描述

  • 建立字典(单词的列向量),使用one-hot表示单词位置

  • UNK: unknown word, 表示不在字典里的词

  • 这里写图片描述

Recurrent Neural Network Model

  • Inputs and outputs can be different lengths in different examples

    每个样本的输入输出维度不固定

  • at each time-step, RNN passes on activation to the next time-step

  • 从左到右依次扫描参数

  • 每个时间步采用的是相同的参数 Wax,Waa,Wya W a x , W a a , W y a

  • 只使用了之前的信息来做出预测

  • BRNN,双向循环神经网络

  • a<0>=0 a < 0 > = 0 , a<1>=g1(Waaa<0>+Waxx<1>+ba) a < 1 > = g 1 ( W a a a < 0 > + W a x x < 1 > + b a ) , y^<1>=g2(Wyaa<1>+by) y ^ < 1 > = g 2 ( W y a a < 1 > + b y )

  • 激活函数 g1 g 1 常用 tanh t a n h g2 g 2 常用 sigmoid,softmax s i g m o i d , s o f t m a x

  • 这里写图片描述

这里写图片描述

Backpropagation through time

这里写图片描述
这里写图片描述

Different types of RNNs

这里写图片描述

Language model and sequence generation

  • corpus 语料库、tokenize 标记、End Of Sentence

  • y^<1> y ^ < 1 > 输出第一个词是XX的概率
    这里写图片描述

  • 给定前面的词,预测下一个词是什么

Sampling novel sequences 新序列采样

  • 训练一个序列模型之后,要想了解到这个模型学到了什么,一种非正式的方法就是进行一次新序列采样

  • character language model, word level language model

  • 基于词汇的语言模型可以捕捉长范围的关系,基于字符的语言模型略逊一筹,并且训练成本比较高昂

  • 这里写图片描述

  • 这里写图片描述

Vanishing gradients with RNNs

  • The basic RNN models are not good at capturing very long-term dependency.
  • local influences 局部影响
  • gradient clipping 梯度修剪,用于解决梯度爆炸,大于某个值时就进行缩放

Gated Recurrent Unit (GRU) 门控循环单元

  • c, memory cell, c~<t>=tanh(Wc[c<t1>,x<t>]+bc) c ~ < t > = tanh ⁡ ( W c [ c < t − 1 > , x < t > ] + b c ) , c<t>=x<t> c < t > = x < t >

  • Γu=σ(Wu[c<t1>,x<t>]+bu) Γ u = σ ( W u [ c < t − 1 > , x < t > ] + b u ) , update gate, this gate value is between 0 and 1

  • gate decides when to update c, c<t>=Γuc~<t>+(1Γu)c<t1> c < t > = Γ u ∗ c ~ < t > + ( 1 − Γ u ) ∗ c < t − 1 > , element-wise multiplication

  • 这里写图片描述

  • 这里写图片描述
  • 这里写图片描述

Long Short Term Memory (LSTM) 长短期记忆

  • update, forget, output
    这里写图片描述

  • peephole connection 窥探孔连接
    这里写图片描述

Bidirectional RNN

  • combine ​information from the past, the present and the future

  • 这里写图片描述

    图中的前向传播一部分计算是从左到右,一部分计算是从右到左

  • 对于大量自然语言处理问题,LSTM 单元的双向 RNN 模型是用的最多的

  • need the entire sequence of data before making predictions

Deep RNNs

a[l]<t>: a [ l ] < t > : layer l, at time t, activation value

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值