CV——day81（2）读论文：注意力机制的早期研究

最新推荐文章于 2024-07-22 01:13:40 发布

想太多!

最新推荐文章于 2024-07-22 01:13:40 发布

阅读量286

点赞数

文章标签：深度学习机器学习自然语言处理

本文链接：https://blog.csdn.net/qq_43537420/article/details/129307033

版权

通过联合学习来对齐和翻译的神经网络机器翻译（ICLR 2015）

1 INTRODUCTION
2 背景:神经机器翻译
- 2.1 RNN(循环神经网络)编码器-解码器
3 LEARNING TO ALIGN AND TRANSLATE
- 3.1 解码器:一般说明
- 3.2 编码器:用于注释序列的双向RNN
A MODEL ARCHITECTURE

NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

最近提出的神经机器翻译模型通常属于编码器-解码器系列，它们将源语句编码成一个固定长度的向量，解码器从中生成翻译。

在本文中，我们猜想固定长度向量的使用是提高这种基本编码器-解码器架构性能的瓶颈，并建议扩展这种瓶颈，允许模型自动(软)搜索源句子中与预测目标词相关的部分，而不必明确地将这些部分形成硬段。

1 INTRODUCTION

这种方法与基本的编码器-解码器最重要的区别是，它不试图将整个输入句子编码成单个固定长度的向量。相反，它将输入的句子编码成向量序列，并在解码翻译时自适应地选择这些向量的一个子集。这使得神经翻译模型不必将源句子的所有信息(无论其长度如何)压缩成固定长度的向量。我们证明，这可以让一个模型更好地处理长句。

定性分析表明，所提出的模型在源句和对应的目标句之间找到了一种语言上的可信(软)对齐。

2 背景:神经机器翻译

这一节仅作简要了解即可：

在神经机器翻译中，我们使用一个并行训练语料库拟合一个参数化的模型，以最大限度地提高句子对的条件概率。一旦翻译模型学习了条件分布，给定一个源句子，就可以通过搜索条件概率最大的句子来生成相应的翻译。

2.1 RNN(循环神经网络)编码器-解码器

本文提出一个神经网络模型RNN-Encoder-Decoder，他的作用一般是用在SNT中，作为机器翻译的一部分。

RNN-Encoder-Decoder：
对于单层RNN来说，输入为x={x1，x2，….xt}，在某时刻的隐藏单元，h(t)=f(h(t-1),xt),f为激励函数，一般为sigmod或tanh，同时注意最后会经过一个softmax层，输出概率。
而在本文中，整体的结构图为：

3 LEARNING TO ALIGN AND TRANSLATE

在本节中，我们提出一种新颖的神经机器翻译架构。新的体系结构由一个双向RNN作为编码器(第3.2节)和一个解码器组成，解码器在译码翻译时模拟搜索源语句(第3.1节)。

3.1 解码器:一般说明

图1:给出一个源句(x1, x2，…)，该模型试图生成第t个目标词yt。， xT)。

我们可以将所有注释的加权和理解为计算期望注释的方法，其中期望高于可能的对齐。设αij为目标词yi与源词xj对齐或翻译的概率。然后，第i个上下文向量ci是所有概率为αij的注释的期望注释。概率αij，或其关联能量eij，反映了注释hj相对于前一个隐藏状态si−1在决定下一个状态si和生成yi方面的重要性。直观地说，这在解码器中实现了一种注意机制。解码器决定源句中需要注意的部分。

通过让解码器有一个注意机制，我们减轻了编码器的负担，必须将源句子中的所有信息编码成一个固定长度的向量。通过这种新方法，信息可以在注释序列中传播，解码器可以相应地有选择地检索注释序列。

3.2 编码器:用于注释序列的双向RNN

在我们提出的方案中，我们希望每个单词的注释不仅可以总结前面的单词，还可以总结后面的单词。因此，我们提出使用一种双向RNN。

A MODEL ARCHITECTURE

A.1 架构选择

在第3节中提出的方案是一个通用框架，人们可以在其中自由地定义，例如，循环神经网络(RNN)的激活函数f和对齐模型a。在这里，我们描述了我们在本文中为实验所做的选择。

A.1.1 递归神经网络

对于RNN的激活函数f，我们使用Cho等人(2014a)最近提出的门控隐藏单元。门控隐藏单元是传统简单单元(如基于元素的tanh)的替代品。这个门控单元类似于Hochreiter和Schmidhuber(1997)早先提出的长短期记忆(LSTM)单元，它具有更好地建模和学习长期依赖关系的能力。这是通过在展开的RNN中具有导数乘积接近1的计算路径而实现的。这些路径能够让梯度轻松地向后流动，而不受消失效应的影响。

A.1.2 对齐模型

在设计对齐模型时，考虑到每对句子长度Tx和Ty需要对模型进行Tx ×Ty次的评估，为了减少计算量，我们使用单层的多层感知器，例如

其中Wa∈Rn×n, Ua∈Rn×2n和va∈Rn是权值矩阵。因为Uahj不依赖于i，所以我们可以提前对它进行计算，以最小化计算成本。

A.2 模型详细描述

A.2.1 ENCODER

从这里开始，为了增加可读性，我们省略了所有的偏见术语。该模型以1 / k编码的单词向量作为输入的源句子；并输出由1 / k编码的单词向量翻译成的句子

其中Kx和Ky分别为源语言和目标语言的词汇量。Tx和Ty分别表示源句和目标句的长度。

首先计算双向循环神经网络(BiRNN)的正向状态:

向后状态的计算方法类似。与权值矩阵不同，我们在正向和反向nn之间共享单词嵌入矩阵E。将前向和后向状态连接得到注释(h1, h2，···，hTx)，其中

A.2.2 DECODER

给出编码器的注释后，解码器的隐藏状态si由

上下文向量ci在每一步由对齐模型重新计算:

在解码器状态si−1、上下文ci和最后生成的单词yi−1的情况下，我们定义目标单词yi的概率为：

随后 ti,k是向量ti的第k个元素，由：

A.2.3 MODEL SIZE

对于本文使用的所有模型，隐含层n的大小为1000，词嵌入维数m为620，深度输出l中最大隐层的大小为500。对齐模型n中的隐藏单元数为1000。

想太多!

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CV——day81（2）读论文：注意力机制的早期研究

在本文中，我们猜想固定长度向量的使用是提高这种基本编码器-解码器架构性能的瓶颈，并建议扩展这种瓶颈，允许模型自动(软)搜索源句子中与预测目标词相关的部分，而不必明确地将这些部分形成硬段。
复制链接

扫一扫