2021斯坦福CS224N课程笔记~3

最新推荐文章于 2024-06-18 17:58:03 发布

波悠悠的菠萝

最新推荐文章于 2024-06-18 17:58:03 发布

阅读量636

点赞数 1

文章标签：机器学习人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_29216461/article/details/126156663

版权

本文介绍了斯坦福CS224课程中关于语言模型和循环神经网络的内容。首先，解释了语言模型如何预测下一个单词，并讨论了n-gram模型及其稀疏性问题。然后，引入了RNN的优势与缺点，特别是梯度消失问题。接着，详细阐述了LSTM和GRU结构，以及它们如何解决梯度消失。最后，提到了双向和多层RNN的应用。

摘要由CSDN通过智能技术生成

2021斯坦福CS224课程leture5~6笔记

前言
一、Lecture 5 ~ Language Models and RNNs
- Language Modeling
- Recurrent Neural Networks
二、Lecture 6 ~ Simple and LSTM RNNs

前言

文章主要记录视频学习笔记，供大家参考学习。

一、Lecture 5 ~ Language Models and RNNs

Language Modeling

语言建模，预测下一个单词是什么，正式表述：给定一个单词序列x⁽¹⁾, x⁽²⁾,…, x^(t)，计算下一个单词x^(t+1)的概率分布：P(x^(t+1) |x^(t),…,x⁽¹⁾)

其中， x^(t+1)可以是词表中的任意单词V={w₁,…,w_|V|}

N-gram Language Models： n-gram是一个由n个连续单词组成的块，示例：

unigrams: “the”, “students”, “opened”, “their”
bigrams: “the students”, “students opened”, “opened their”
trigrams: “the students opened”, “students opened their”
4-grams: “the students opened their”

假设：单词x^(t+1)只依赖前面的n-1个单词，即
概率计算方式
分子是n-gram的概率，分母是(n-1)-gram的概率分布。

示例：学习一个4-gram的语言模型

N-gram Language Models的稀疏性问题：若“students open their w” 从未出现在数据中，概率值为 0：解决方案：为每个w∈V添加极小数δ，称为平滑，使得词表的每个单词至少存在很小概率；如果“students open their” 从未出现在数据中，则无法计算任何单词w的概率值：

解决方案：采用backoff模式，缩短上下文长度，如这里将条件改为“open their”。

一般情况下 n 不能大于5，增加 n 或增加语料库均会增加模型大小。

Recurrent Neural Networks

RNN，核心想法是重复使用相同的权重矩阵W。
在这里插入图片描述

优点：

可以处理任意长度输入
理论上步骤t的计算可以使用之前的信息
模型大小不会随着输入增加而增加
每个时间步上应用权重相同，处理输入时具有对称性

缺点：

递归计算速度慢
实际应用中之前步的信息难以返回

在这里插入图片描述
损失函数：平均所有步骤上的损失，即

BP中的梯度计算公式如下：
评估标准：perplexity，即交叉熵损失J(θ)的指数：

二、Lecture 6 ~ Simple and LSTM RNNs

梯度消失问题

当梯度较小时，随着反向传播的不断深入，梯度信号越来越小.
在这里插入图片描述
证明：

如果权重矩阵W_h很小，则W_h^(i-j)也会随着i和j的距离增加而减小。

梯度消失后果：

模型权重只根据近期效应进行更新
若梯度从时间步t到t+n距离内越来越小，可认为t和t+n步之间的数据没有依赖关系，则该模型无法学习长距离依赖关系

梯度消失解决办法：

Gradient clipping：如果梯度的范数大于某个阈值，在应用SGD更新之前将其缩小
LSTM/GRU
Skip connections（如ResNet）

LSTM和GRU

LSTM

输入序列x^(t)，隐藏状态h^(t)，单元状态c^(t)，σ()是值介于0和1之间的sigmoid函数。

遗忘门： f^(t)= σ(W_fh^(t-1)+U_fx^(t)+b_f)
输入门： i^(t)= σ(W_ih^(t-1)+U_ix^(t)+b_i )
输出门： o^(t)= σ(W_oh^(t-1)+U_ox^(t)+b_o )
新的单元内容：c ̃^(t)= tanh(W_c h^(t-1)+U_c x^(t)+b_c )
单元状态： c^(t)= f^(t) ° c^(t-1)+ i^(t) ° c ̃^(t)
隐藏状态： h^(t)= o^(t) ° tanhc^(t)

LSTM通过遗忘门保存之前时间步的信息，若遗忘门设置为记得每一时间步的所有信息，则单元信息将被无限保存。