cs224n 笔记11 GRU和NMT的其他议题

最新推荐文章于 2021-03-08 20:56:48 发布

刀口木

最新推荐文章于 2021-03-08 20:56:48 发布

阅读量357

点赞数

文章标签： cs224n nlp

本文链接：https://blog.csdn.net/li_dongchao/article/details/85929161

版权

前言

cs224n 第11讲，复习了一些RNN知识，讲到了GRU以及机器翻译

文章目录

RNN到GRU

门控单元

在RNN中，我们想了解过去的信息是如何影响当前时刻的，想找到一种测量方式能够显示的表现这种影响。
在这里插入图片描述
RNN的梯度消失是一个很大的问题，但是我们观察到梯度为0时，并不能确定是前后时刻真的没有影响还是真的出现了梯度消失问题。

在朴素的RNN单元中，梯度的或大或小都可能造成相关的问题，很难选取到合适的初始值。所以类似于GRU、LSTM这些具有门控单元的结构就出现了。
下图中形象的表示了朴素RNN单元和GRU单元的不同。朴素的RNN单元多次连乘，会出现梯度消失或爆炸的问题，而GRU单元则将初始状态直接添加到每一个时刻，允许梯度直接过去，这样就解决了由于连乘带来的梯度消失\爆炸的问题。图中红色代表梯度的传播。
在这里插入图片描述

GRU

关于GRU的介绍之前也讲过，简单回顾一下
在这里插入图片描述
上图展示的更新方式，绿色标记的是对当前信息的计算， $h_{t-1}$ 是之前时刻的信息， $u_t$ 用来控制记住当前输入信息和之前时刻信息的比例。
之前也说过，这种方式导致一个问题，就是不能把之前时刻的信息完全忘记，所以还需要一个reset gate
在这里插入图片描述

寄存器

在这里插入图片描述
朴素RNN的寄存器只能读取或者更新整个寄存器，不够灵活

而GRU有门控单元，可以灵活的选择读取哪些寄存器

GRU和LSTM对比

在这里插入图片描述
GRU和LSTM在本质上是很相似的，两者最重要的公式十分类似，如图中标记的公式。课程中提问了很多问题，我个人觉得，这两种结构的基本思想是一致的，公式的细微不同之处造成的差异性很小，硬要解释出两者的区别，只能从公式中强行解释。
下面这张图对LSTM进行形象化的表示，图中标记的地方算是最重要的地方，也就是加号的使用，这种思想解决了梯度的一系列问题。
在这里插入图片描述
LSTM能够更长时间的保存信息，如下图演示

训练技巧

将递归权值矩阵初始化为正交
将其他矩阵初始化为较小的值
将forget gate偏置设为1：默认为不遗忘
使用自适应的学习率算法：Adam、AdaDelta
裁剪梯度的长度为小于1-5
在Cell中垂直应用Dropout而不是水平Dropout
保持耐心，通常需要训练很长时间

集成

这里提到的trick就是训练多个模型，投票预测，课程中说效果很好
在这里插入图片描述

MT评价

BLEU

BLEU是现在常用的机器翻译评价方法，其思想是通过比较标准译文与翻译译文中n-gram的重叠比率来衡量翻译质量
在这里插入图片描述
这里不使用1-gram的原因是，很容易想到的作弊方式就是翻译译文输出大量的the来提升匹配率，比如参考翻译有7个词，候选翻译输出7个the，那么这个翻译的得分就是1，这显然是不对的。
另外一个问题是，当译文太短时，n-gram方式也很容易得高分。比如参考译文1是“the cat is on the mat”，参考译文2是“there is a cat on the mat”，候选译文输出“the cat”，那么得分又是1（1/2+1/2）。所以还需要有效的惩罚措施，对短译文进行惩罚。BP当候选译文比参考译文短时小于1，进行惩罚。
在这里插入图片描述

Multiple Reference Translations

使用多篇参考译文，能够保证党翻译的译文很好时，总能和某篇译文相似度高。IBM建议的数量是4。
在这里插入图片描述
BLEU的打分情况和人类打分几乎是一致的（线性相关）

大词表问题

这里说的大词表问题就是在预测一个单词时，需要做softmax，当词表过大时，softmax的运算代价就会很高。
在这里插入图片描述
Manning提到了几个不太好的方法，比如减小词表，建立树形词表等。
一种比较好的方法是每次训练都是用词汇表的子集。
Training
让用词相似的文章进入同一子集

testing
测试的时候先雷打不动将前K个最常使用的单词加入备选词表，然后将原文中每个单词可能的前K′个翻译加进去。最后在备选词表上softmax。在这里插入图片描述
后面还有些内容没有讲完，估计下节课Manning会补上吧。。。