NLP2017总结

最新推荐文章于 2024-09-03 10:29:06 发布

poilkj110

最新推荐文章于 2024-09-03 10:29:06 发布

阅读量371

点赞数

分类专栏：注意力机制文章标签： nlp

本文链接：https://blog.csdn.net/poilkj110/article/details/79123377

版权

注意力机制专栏收录该内容

1 篇文章 0 订阅

订阅专栏

注意力机制的思想是我们需要关注在编码器中的一些相关输入去更好的完成解码任务。在最简单例子中相关性被定义为特定输入和当前输出的相似度。这个相似度可以被定义为一些带权的输入之和，其中权重之和为1，并且最大的权重对应最相关的输入。
在图中，我们可以看到经典的Dzmitry Bahdanau’s方法：我们有一个输入–编码器的隐藏状态和一些系数来求和这个带(a’s)的隐藏状态。这些系数不是预制的，它们由一些其他不同编码器隐藏状态的输入的其他输入。
和上述不同的称为self-attention在输入数据上。self在名字上指的是注意力被应用到正在被计算的数据上，和标准方法不同的是别人使用一些额外输入来产生注意力在给定输入上。
进一步这个self-attention被称为Multi-head 当它并行完成的多种相同操作。这个特征可以和卷积核相比，也就是每个head关注输入数据中的不同地方。注意力的其他主要特征是三个输入的使用（不同于标准方法的两个）。观察图中，首先我们计算“子注意力”在Q（query）和K（key）和从输入结合V（value）值之后的值。
抛开这个架构的主要特征主要包含两点，也就是：位置编码，和masked attention for decoder.
位置编码：模型整个架构就是feed-forward,网络中没有序列。为了注入时间序列的知识，位置编码被提出。
使用三角函数（sin和cos）在文档中构成词的位置，在这个容器中不是很有效，但是也能行：这种结合真实词嵌入（例如word2vec）的嵌入能带来一个词的同感和它相关位置。

Masked attention- 简单但是重要的特征：因为网络中没有使用序列，我们需要过滤网络一些属性对于未来词，这些词当我们在解码时是无法得到的。所以使用mask。

Parallel Decoder for Neural Machine Translation
对于这种对于解码器的masked（模糊的）注意力不足够好，就从并行编码器中加速而言，并且觉得使用另一种策略：为什么不做一个并行解码器，当我们已经有一个并行的编码器？这里写图片描述
上述称为Non-Autoregressive Decoding整个架构称为N-A transoformer，意味着现在不是一个词取决于另一个词。这里的思想是架构中的编码器产生每次词的所谓的fertility rate(生育率)。这个生育率被用来对每个词生成真实的翻译，只基于词本身。这个可以被认为是像我们有一个标准的对齐矩阵对于机器翻译：这里写图片描述
你可以看到，一些词可以指示超过一个词，一些看起来不指示任何词。因此生育率只是分割这个矩阵成一片片，其中每个篇对于特定词在源
未完待续