注意力机制 Attention模型 global attention 和 local attention

Attention model 可以应用在图像领域也可以应用在自然语言识别领域

本文讨论的Attention模型是应用在自然语言领域的Attention模型,本文以神经网络机器翻译为研究点讨论注意力机制,参考文献《Effective Approaches to Attention-based Neural Machine Translation》

这篇文章提出了两种Attention模型分类:global、local

首先我们先定义些概念,以免在之后的讨论中混淆,机器翻译中输入的语言我们称为source,输出的语言我们称为target

上图中A、B、C、D 是输入端称为source,X、Y、Z是输出端称为target,图中采用了两个RNN(循环神经网络),下边的称为编码器用于计算source的向量表示形式,上边的称为译码器,在每个时间步产生一个target单词,多个时间步之后就产生了一个句子,如果这里关于RNN、编码器和译码器不清楚,大家自行百度。

翻译模型就是在给定输入的情况下,算出每个单词输出的概率,即 p(y|x)   x是source  x1, . . . , xn, y是target sentence, y1, .. , ym

传统的target单词产生概率的计算定义为以下方式: 

  • 4
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值