LSTM-Attention模型:Effective Approaches to Attention-based Neural Machine Translation

参考链接论文链接:https://arxiv.org/pdf/1508.04025v5.pdf项目链接: https://github.com/pytorch/fairseq模型(model):【1】Neural Machine Translation(NMT):神经机器翻译(NMT)是直接用神经网络去模拟条件概率:p(x∣y)p(x|y)p(x∣y)NMT一般由两个部分组成:...
摘要由CSDN通过智能技术生成

参考链接

模型(model):

【1】Neural Machine Translation(NMT):

  • 神经机器翻译(NMT)是直接用神经网络去模拟条件概率: p ( x ∣ y ) p(x|y) p(xy)
  • NMT一般由两个部分组成: e n c o d e r + d e c o d e r encoder+decoder encoderdecoder e n c o d e r encoder encoder部分读入源句子输出该句子的表示 (representation S S S), d e c o d e r decoder decoder部分接受 e n c o d e r encoder encoder部分的输出+ d e c o d e r decoder decoder已经输出的目标词作为输入并输出一个目标词。因此条件概率可以分解为: l o g p ( y ∣ x ) = ∑ x = 1 m l o g p ( y j ∣ y < j , s ) logp(y|x) = \sum_{x=1}^mlogp (y_j|y_{<j},s) logp(yx)=x=1mlogp(yjy<j,s)
  • d e c o d e r decoder decoder去模拟该条件概率,因此可以进一步写作: l o g p ( y ∣ x ) = s o f t m a x ( g ( h j ) ) logp(y|x)=softmax(g(h_j)) logp(yx)=softmax(g(hj)) g g g函数的输出向量的维数=词汇表的大小; h j h_j hj是RNN隐藏状态向量,其公式如下: h j = f ( h j − 1 , s ) h_j = f(h_{j−1}, s) hj=f(hj1,s) f f f是RNN的单元可以是:标准的RNN单元、GRU单元和LSTM单元。
  • 模型图:
  • 这篇论文使用的模型是多层的LSTM+Attention机制;损失函数(目标函数): J t = ∑ ( x , y ) ∈ D − l o g p ( y ∣ x ) J_t =\sum_{(x,y)∈D} − log p(y|x) Jt=(x,y)Dlogp(yx) D D D是语料库

【2】Attention-based Models

  • 论文中讲了两种模型: g l o b a l global global l o c a l local local;两个模型图如下:

  • Global Attention:

    • 模型图正如上图所示现在解释一下里面的变量:
      • c t c_t ct:上下文向量;生成它是需要考虑 e n c o d e r encoder encoder的所有隐藏层状态向量 h t ‾ \overline{h_t} ht
      • a t a_t a
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值