（Attention机制原文）论文阅读：Neural Machine Translation by Jointly Learning to Align and Translate

极致一流技术

已于 2022-05-03 10:12:15 修改

阅读量2k

点赞数

分类专栏：深度学习深度学习论文阅读文章标签：深度学习 rnn 自然语言处理

于 2022-03-27 23:08:05 首次发布

本文链接：https://blog.csdn.net/u011364612/article/details/123779292

版权

深度学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

深度学习论文阅读

3 篇文章 0 订阅

订阅专栏

与传统的机器翻译相比，基于神经网络的机器翻译方法能够通过统一调参最大化。Encoder-decoder被广泛用于机器翻译，它将一句话的语义信息表示为一个固定长度的向量。然而，这种固定长度的向量可能无法承载句子的全部语义信息，因此如果句子长度过长，那么采用这种方式可能取得较差的性能。

这篇论文的优势在于提出一种attention机制，将align和translate统一了起来。align是指翻译两个句子之间，语义之间的对应关系。translate即生成翻译结果。这种机制通过调参的方式，搜索相关位置，生成对应的单词。

attention机制的本质是，它不是将句子压缩成一个固定长度的向量，而是将其表示为向量序列。然后通过自适应的方法，选择向量集合，预测目标单词。

RNN encoder-decoder

编码器

对于一个encoder的输入是一个向量序列 $X=(x_1, x_2, ..., x_n)$ ，最常用的方法就是RNN：
$h(t) = f(x_t, h_{t-1})$
and

$c=q({h_1, ...., h_T})$

其中 $h_t$ 是时间 $t$ 时的隐藏状态， $c$ 是基于隐藏状态序列生成的vector，代表句子的上下文。

解码器

对于一个decoder来说，其输入包括上下文向量 $c$ ，所有之前已经预测的单词 ${y_1, y_2, ..., y_{t-1}\}$ 。事实上，decoder就是要构建一个联合条件概率：
$\Pi{p(y_t|\{y_1, ..., y_{t-1}\}, c)}$
对于RNN而言，对于生成的每个word，应该满足条件概率如下：
$p(y_t|{y_1, ..., y_{t-1}, c}) = g(y_{t-1}, s_t, c)$
$g$ 是一个非线性的，可能是多层的函数，输出概率 $y_t$ 。每次生成word都要依据上下文向量 $c$ 。

Attention 机制

论文以encoder-decoder为例，引入attention机制。

decoder阶段

定义条件概率：
$p(y_i|y_1, ..., y_{i-1}, x) = g(y_{i-1}, s_i, c_i)$
其中 $s_i$ 是RNN在时刻 $i$ 状态下隐藏状态，由以下公式计算：
$s_i = f(s_{i-1}, y_{i-1}, c_i)$

它与传统的encoder-decoder的差别是，对于每个 $y_i$ 都对应一个上下文向量 $c_i$

上下文向量依赖于一系列的annotations： $h_1, ...., h_T)$ ，对于每个annotation都包含整个句子的信息，并且主要集中在i位置的单词上。

上下文向量 $c_i$ 是 $h$ 的加权求和：
$c_i = \sum{\alpha_{ij}h_j} \\$

其中 $\alpha_{ij}$ 的计算方法如下：
$\alpha_{ij} = \frac{exp(e_{ij})}{\sum{exp(e_{ik})}}$

其中 $e_{ij}$ 通过一个前向的神经网络计算，被称为alignment model:

$e_{ij} = a(s_{i-1}, h_j)$

注意， $i$ 对应输出序列， $j$ 对应输入序列。

encoder阶段

作者采用双向RNN，前向RNN和后向RNN分别在输入 $j$ 的位置产生了隐藏状态向量 $h_{11}, h_{12})$ ，作者将两个隐藏状态向量合并，作为annotation输入到alignment model中。

attention机制如下图所示：
在这里插入图片描述

极致一流技术

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
（Attention机制原文）论文阅读：Neural Machine Translation by Jointly Learning to Align and Translate

本文主要介绍了attention机制的原文内容，包括attention动机，attention如何计算和应用等。
复制链接

扫一扫