2021斯坦福CS224N课程笔记~3

本文介绍了斯坦福CS224课程中关于语言模型和循环神经网络的内容。首先,解释了语言模型如何预测下一个单词,并讨论了n-gram模型及其稀疏性问题。然后,引入了RNN的优势与缺点,特别是梯度消失问题。接着,详细阐述了LSTM和GRU结构,以及它们如何解决梯度消失。最后,提到了双向和多层RNN的应用。
摘要由CSDN通过智能技术生成


前言

文章主要记录视频学习笔记,供大家参考学习。


一、Lecture 5 ~ Language Models and RNNs

Language Modeling

语言建模,预测下一个单词是什么,正式表述:给定一个单词序列x(1), x(2),…, x(t),计算下一个单词x(t+1)的概率分布:P(x(t+1) |x(t),…,x(1))

其中, x(t+1)可以是词表中的任意单词V={w1,…,w|V|}

N-gram Language Models: n-gram是一个由n个连续单词组成的块,示例:

  • unigrams: “the”, “students”, “opened”, “their”
  • bigrams: “the students”, “students opened”, “opened their”
  • trigrams: “the students opened”, “students opened their”
  • 4-grams: “the students opened their”

假设:单词x(t+1)只依赖前面的n-1个单词,即
概率计算方式
分子是n-gram的概率,分母是(n-1)-gram的概率分布。

示例:学习一个4-gram的语言模型
示例
N-gram Language Models的稀疏性问题: 若“students open their w” 从未出现在数据中,概率值为 0:解决方案:为每个w∈V添加极小数δ,称为平滑,使得词表的每个单词至少存在很小概率;如果“students open their” 从未出现在数据中,则无法计算任何单词w的概率值:

解决方案:采用backoff模式,缩短上下文长度,如这里将条件改为“open their”。

一般情况下 n 不能大于5,增加 n 或增加语料库均会增加模型大小。

Recurrent Neural Networks

RNN,核心想法是重复使用相同的权重矩阵W。
在这里插入图片描述

优点

  • 可以处理任意长度输入
  • 理论上步骤t的计算可以使用之前的信息
  • 模型大小不会随着输入增加而增加
  • 每个时间步上应用权重相同,处理输入时具有对称性

缺点

  • 递归计算速度慢
  • 实际应用中之前步的信息难以返回

在这里插入图片描述
损失函数:平均所有步骤上的损失,即
在这里插入图片描述
BP中的梯度计算公式如下:在这里插入图片描述
评估标准:perplexity,即交叉熵损失J(θ)的指数:在这里插入图片描述

二、Lecture 6 ~ Simple and LSTM RNNs

梯度消失问题

当梯度较小时,随着反向传播的不断深入,梯度信号越来越小.
在这里插入图片描述
证明:
在这里插入图片描述
如果权重矩阵Wh很小,则Wh(i-j)也会随着i和j的距离增加而减小。

梯度消失后果

  • 模型权重只根据近期效应进行更新
  • 若梯度从时间步t到t+n距离内越来越小,可认为t和t+n步之间的数据没有依赖关系,则该模型无法学习长距离依赖关系

梯度消失解决办法

  • Gradient clipping:如果梯度的范数大于某个阈值,在应用SGD更新之前将其缩小
  • LSTM/GRU
  • Skip connections(如ResNet)

LSTM和GRU

LSTM

输入序列x(t),隐藏状态h(t),单元状态c(t),σ()是值介于0和1之间的sigmoid函数。

  • 遗忘门: f(t)= σ(Wfh(t-1)+Ufx(t)+bf)
  • 输入门: i(t)= σ(Wih(t-1)+Uix(t)+bi )
  • 输出门: o(t)= σ(Woh(t-1)+Uox(t)+bo )
  • 新的单元内容:c ̃(t)= tanh(Wc h(t-1)+Uc x(t)+bc )
  • 单元状态: c(t)= f(t) ° c(t-1)+ i(t) ° c ̃(t)
  • 隐藏状态: h(t)= o(t) ° tanhc(t)
    在这里插入图片描述
    LSTM通过遗忘门保存之前时间步的信息,若遗忘门设置为记得每一时间步的所有信息,则单元信息将被无限保存。

GRU

输入序列x(t),隐藏状态h(t)

  • 更新门: u(t)= σ(Wuh(t-1)+Uux(t)+bu )
  • 重置门: r(t)= σ(Wrh(t-1)+Urx(t)+br )
  • 新的隐藏状态内容: h ̃(t)= tanh(Wh(r(t)°h(t-1))+Uhx(t)+bh)
  • 隐藏状态: h(t)= (1-u(t))°h(t-1)+ u(t)°h ̃(t)

LSVM vs GRU?-----GRU计算速度更快,参数更少
没有明确证据表明其中一个总是比另一个表现更好,当数据具有长依赖关系或者训练数据较多时,LSTM可作为默认选择,若想要提升销量,可使用GRU。

Bidirectional 和 Multi-layer RNNs

Bidirectional RNNs: 只适用于访问整个输入序列的情况,不适用于语言建模
在这里插入图片描述
在这里插入图片描述
Multi-layer RNNs:应用多个RNNs使它们“深入”到另一个维度 。
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值