lecture6 - Language Models and RNNs

最新推荐文章于 2024-05-14 14:40:29 发布

劉北习

最新推荐文章于 2024-05-14 14:40:29 发布

阅读量329

点赞数

分类专栏： CS224n学习笔记

本文链接：https://blog.csdn.net/anfanger_z/article/details/104018308

版权

CS224n学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

课程内容

主要内容

主要内容

语言模型(Language Model)

定义

语言模型，通俗一点来说就是通过给定一系列的词预测下一个词，即给定一个长度为n的序列，语言模型输出一个关于第n+1个词的概率分布
对于一段序列的每一个词都可以输出一个概率分布，而这段序列出现的概率可以用序列中每一个词的概率乘积来表示。

N-gram model

N-gram指的是一段序列中将几个连续的词当作一个chunk，举个例子：
“今天真是个不错的日子”
在这句话中，我们假设模型的粒度是字，那么一个unigram将形如"今“，”天“，”真“，”是“，”个“这样一个字一个字组成的chunk，而bigram将形如”今天“，”天真“，”真是“，以此类推，n决定了由几个连续的词组成一个chunk。

n-gram模型是一种基于统计数据的模型，对于给定的语料库，我们首先需要统计n-gram中每一个chunk出现的频度，这将会是我们用来预测下一个词的依据

那么，如何通过这些频度预测下一个词呢？课程中首先以一个简单的假设交代这件事情，这里的假设是我们将要预测的词基于之前出现过的n-1个词的概率

$P(T_i\vert T_{i-1}......T_{i\;-n+1})\;=\;\frac{P(T_I,T_{i-1},T_{i-2},...,T_{i-n+1})}{P(T_{i-1},T_{i-2},...,T_{i-n+1})}$

这个公式就是根据我们学过的条件概率公式写出来的，从形式上，其实也不难猜出我们如何计算这个条件概率了，没错，之前统计的频度在这就派上用场了，使用频度作为概率的近似，我们得到以下公式：

$\;\frac{P(T_I,T_{i-1},T_{i-2},...,T_{i-n+1})}{P(T_{i-1},T_{i-2},...,T_{i-n+1})}\approx\frac{Count(T_I,T_{i-1},T_{i-2},...,T_{i-n+1})}{Count(T_{i-1},T_{i-2},...,T_{i-n+1})}$

关于这个公式，课程中也指出，存在几个问题：

Sparsity Problems

分子所代表的序列在语料中从未出现怎么办？

因为我们的公式是建立在统计频度的基础上，因此，如果我们所期待的序列并未在预料中出现，那么其频度自然为0，那么条件概率将为0，也就是说，无法得到我们想要的序列，当然我们不希望模型被加上这样的限制，解决方法是什么呢？
课程中提到，这个时候，我们会对分子进行光滑(smoothing)操作，实际上就是在分子添加一个极小的数值 $\delta$

分母代表的序列在语料中未出现怎么办？
对于这种情况，课程中给出一种解决方案，就是使用别的chunk来代替，比如说，分母是前n-1个词的序列若未出现，那么我们就使用前n-2个词的序列作为替代计算概率，这个方法叫backoff(我也不知道中文怎么翻译。。。)

以上的问题随着n的取值增大而愈发严重，一般来说n=5就是比较合理的选择了

这个是课件上的Notes,其实很好理解，n的取值越大，句子受到语料的限制就越大，换句话说，泛化性能就会随之下降。

Storage Problems

从条件概率的表达式我们不难发现n-gram模型存在的另外一个问题，就是对于内存的要求很大，基于频度意味着我们需要存储每一个chunk，这个问题很明显会随着语料库规模的扩大而愈发严重。

神经语言模型(Neural Language Model)

如名字所示，NLM引入神经网络作为语言模型，关于神经网络就不再赘述，实际上NLM就是最普通的Feed Forward结构，此时，在模型中，不再使用频度来衡量预测词的概率(仅针对课程中的Word2Vec)，在NLM中，我们使用词汇的分布式表示来进行概率的计算，具体结构如下：

在这里插入图片描述
结构一目了然，简单地将词向量拼接后送进全连接层，随后加上Softmax输出预测概率。这里是一种Fixed-Window形式的模型，即我们只考虑固定大小的窗口，以此预测下一个词。这跟CBOW的感觉有些像。
这个模型解决了基于统计的模型中的频度为0的问题，但仍然存在问题。

Problems

首先是窗口大小，这一点依然限制着模型从上下文中捕捉更多的信息。扩大窗口同样会扩大模型的规模。参数矩阵 $W$ 会随着窗口的增大迅速扩大。

其次，该模型的参数矩阵 $W$ 是一个不可复用的矩阵，这是啥意思呢？从计算上看，每一个词向量会与这个矩阵中的某一列相乘，但是，从最初的词向量编码为隐藏层的某个数值，这一过程的拟合函数应当是类似的，也就是说，矩阵的参数从直觉上来看是存在冗余的。课程中的下个内容会解决这个问题。

循环神经网络(Recurrent Neural Networks)

基本结构

Basic RNN

优势

从模型上看，其最大的特点有如下几点：
首先：矩阵 $W$ 的复用，从模型结构上我们可以看到，每一层的隐状态 $h$ 的计算都使用同样的矩阵，这也就意味着，模型可以应对任意增长的序列(理论上)。实践中，基础的RNN实际上并不能很好的捕捉长距离的依赖关系。
当然，在RNN中，不必再考虑n-gram/窗口，因为每一个单元都含有前面序列所包含的信息。

注意事项

在这里，主要是想说一下RNN损失函数的计算，这个算法有一个很酷炫的名字(Andrew Ng说这是他觉得深度学习中最酷的算法名字之一。。。)
这个算法叫做BPTT(BackPropagationThroughTime)不过，说白了其实也是Chain-rule的使用罢了，因为在模型中损失函数是每一个输出词的交叉熵的和，这个函数中，每一个时间步都有矩阵 $W$ 的参与，因此在计算偏导数的时候，要将每一步的损失对于 $W$ 的偏导数累加起来。
懒得弄公式了，直接推荐一个博客：
传送门