注意力机制原理_带注意力机制的Seq2Seq翻译模型

本文介绍了注意力机制在神经机器翻译(NMT)模型中的原理和计算步骤。注意力机制由Bahdanau等人提出,旨在解决解码序列过长导致的效果下降问题。通过计算编码阶段的记忆与解码时刻的相似度,形成注意力权重,进而生成上下文向量,用于解码过程。文章还简述了注意力机制的计算流程,并提供了使用示例。
摘要由CSDN通过智能技术生成

d4b8ffe3645309cc37c36daf8b6e0b72.png

1.注意力机制原理

上一篇文章介绍了如何使用Tensorflow来搭建一个简单的NMT模型,但那只是一个初级的模型。下面我们通过加入注意力机制(attention mechanism)来使得其变得更加高级一点。

关于什么时注意力机制呢,笔者就按照谷歌NMT开源文档中的说明来简单介绍一下。首先,最初注意力是由Bahdanau等人在2015年提出的,紧接着Luong等人又对其进行了改进,然后就出现了很多的版本。之所以要提出注意力机制就是为了解决当解码的序列太长时,越到后面效果就越差。因为在未引入注意力机制之前,解码时仅仅只依靠上一时刻的输出而忽略的编码阶段每个时刻的输出(“称之为记忆”)。注意力机制的思想在于,希望在解码的时刻能够参考编码阶段的记忆,对上一时刻输出的信息做一定的处理(也就是只注意其中某一部分),然后再喂给下一时刻做解码处理。这样就达到了解码当前时刻时,仅仅只接受与当前时刻有关的输入,类似与先对信息做了一个筛选(注意力选择)。

2. 计算步骤

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值