CV——day81(2) 读论文:注意力机制的早期研究

NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

最近提出的神经机器翻译模型通常属于编码器-解码器系列,它们将源语句编码成一个固定长度的向量,解码器从中生成翻译。

在本文中,我们猜想固定长度向量的使用是提高这种基本编码器-解码器架构性能的瓶颈,并建议扩展这种瓶颈,允许模型自动(软)搜索源句子中与预测目标词相关的部分,而不必明确地将这些部分形成硬段。

1 INTRODUCTION

这种方法与基本的编码器-解码器最重要的区别是,它不试图将整个输入句子编码成单个固定长度的向量。相反,它将输入的句子编码成向量序列,并在解码翻译时自适应地选择这些向量的一个子集。这使得神经翻译模型不必将源句子的所有信息(无论其长度如何)压缩成固定长度的向量。我们证明,这可以让一个模型更好地处理长句。

定性分析表明,所提出的模型在源句和对应的目标句之间找到了一种语言上的可信(软)对齐。

2 背景:神经机器翻译

这一节仅作简要了解即可:

在神经机器翻译中,我们使用一个并行训练语料库拟合一个参数化的模型,以最大限度地提高句子对的条件概率。一旦翻译模型学习了条件分布,给定一个源句子,就可以通过搜索条件概率最大的句子来生成相应的翻译。

2.1 RNN(循环神经网络)编码器-解码器

本文提出一个神经网络模型RNN-Encoder-Decoder,他的作用一般是用在SNT中,作为机器翻译的一部分。

RNN-Encoder-Decoder:
对于单层RNN来说,输入为x={x1,x2,….xt},在某时刻的隐藏单元,h(t)=f(h(t-1),xt),f为激励函数,一般为sigmod或tanh,同时注意最后会经过一个softmax层,输出概率。
而在本文中,整体的结构图为:

3 LEARNING TO ALIGN AND TRANSLATE

在本节中,我们提出一种新颖的神经机器翻译架构。新的体系结构由一个双向RNN作为编码器(第3.2节)和一个解码器组成,解码器在译码翻译时模拟搜索源语句(第3.1节)。

3.1 解码器:一般说明

image-20230302185752082

图1:给出一个源句(x1, x2,…),该模型试图生成第t个目标词yt。, xT)。

我们可以将所有注释的加权和理解为计算期望注释的方法,其中期望高于可能的对齐。设αij为目标词yi与源词xj对齐或翻译的概率。然后,第i个上下文向量ci是所有概率为αij的注释的期望注释。概率αij,或其关联能量eij,反映了注释hj相对于前一个隐藏状态si−1在决定下一个状态si和生成yi方面的重要性。直观地说,这在解码器中实现了一种注意机制。解码器决定源句中需要注意的部分。

通过让解码器有一个注意机制,我们减轻了编码器的负担,必须将源句子中的所有信息编码成一个固定长度的向量。通过这种新方法,信息可以在注释序列中传播,解码器可以相应地有选择地检索注释序列。

3.2 编码器:用于注释序列的双向RNN

在我们提出的方案中,我们希望每个单词的注释不仅可以总结前面的单词,还可以总结后面的单词。因此,我们提出使用一种双向RNN。

A MODEL ARCHITECTURE

A.1 架构选择

在第3节中提出的方案是一个通用框架,人们可以在其中自由地定义,例如,循环神经网络(RNN)的激活函数f和对齐模型a。在这里,我们描述了我们在本文中为实验所做的选择。

A.1.1 递归神经网络

对于RNN的激活函数f,我们使用Cho等人(2014a)最近提出的门控隐藏单元。门控隐藏单元是传统简单单元(如基于元素的tanh)的替代品。这个门控单元类似于Hochreiter和Schmidhuber(1997)早先提出的长短期记忆(LSTM)单元,它具有更好地建模和学习长期依赖关系的能力。这是通过在展开的RNN中具有导数乘积接近1的计算路径而实现的。这些路径能够让梯度轻松地向后流动,而不受消失效应的影响。

A.1.2 对齐模型

在设计对齐模型时,考虑到每对句子长度Tx和Ty需要对模型进行Tx ×Ty次的评估,为了减少计算量,我们使用单层的多层感知器,例如image-20230302190516169

其中Wa∈Rn×n, Ua∈Rn×2n和va∈Rn是权值矩阵。因为Uahj不依赖于i,所以我们可以提前对它进行计算,以最小化计算成本。

A.2 模型详细描述

A.2.1 ENCODER

从这里开始,为了增加可读性,我们省略了所有的偏见术语。该模型以1 / k编码的单词向量作为输入的源句子;并输出由1 / k编码的单词向量翻译成的句子

image-20230302190615246

其中Kx和Ky分别为源语言和目标语言的词汇量。Tx和Ty分别表示源句和目标句的长度。

首先计算双向循环神经网络(BiRNN)的正向状态:

image-20230302190709604

向后状态的计算方法类似。与权值矩阵不同,我们在正向和反向nn之间共享单词嵌入矩阵E。将前向和后向状态连接得到注释(h1, h2,···,hTx),其中

image-20230302190737650

A.2.2 DECODER

给出编码器的注释后,解码器的隐藏状态si由image-20230302190757366

image-20230302190812704

上下文向量ci在每一步由对齐模型重新计算:image-20230302190836753

image-20230302190855199

在解码器状态si−1、上下文ci和最后生成的单词yi−1的情况下,我们定义目标单词yi的概率为:

image-20230302190926481

随后 ti,k是向量ti的第k个元素,由:image-20230302190952574

A.2.3 MODEL SIZE

对于本文使用的所有模型,隐含层n的大小为1000,词嵌入维数m为620,深度输出l中最大隐层的大小为500。对齐模型n中的隐藏单元数为1000。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值