LSTM-Attention模型：Effective Approaches to Attention-based Neural Machine Translation

最新推荐文章于 2024-05-13 08:51:10 发布

菜小白—NLP

最新推荐文章于 2024-05-13 08:51:10 发布

阅读量649

点赞数

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/ACM_hades/article/details/104284606

版权

参考链接论文链接：https://arxiv.org/pdf/1508.04025v5.pdf项目链接： https://github.com/pytorch/fairseq模型(model)：【1】Neural Machine Translation(NMT):神经机器翻译(NMT)是直接用神经网络去模拟条件概率：p(x∣y)p(x|y)p(x∣y)NMT一般由两个部分组成：...

摘要由CSDN通过智能技术生成

参考链接

论文链接：https://arxiv.org/pdf/1508.04025v5.pdf
项目链接： https://github.com/pytorch/fairseq

模型(model)：

【1】Neural Machine Translation(NMT):

神经机器翻译(NMT)是直接用神经网络去模拟条件概率： $p (x ∣ y)$
NMT一般由两个部分组成： $e n c o d e r ＋ d e c o d e r$ ， $e n c o d e r$ 部分读入源句子输出该句子的表示 (representation $S$ ), $d e c o d e r$ 部分接受 $e n c o d e r$ 部分的输出+ $d e c o d e r$ 已经输出的目标词作为输入并输出一个目标词。因此条件概率可以分解为： $\sum_{x=1}^mlogp (y_j|y_{<j},s)$
用 $d e c o d e r$ 去模拟该条件概率，因此可以进一步写作： $logp(y|x)=softmax(g(h_j))$ $g$ 函数的输出向量的维数=词汇表的大小； $h_j$ 是RNN隐藏状态向量，其公式如下： $h_j = f(h_{j−1}, s)$ $f$ 是RNN的单元可以是：标准的RNN单元、GRU单元和LSTM单元。
模型图：
这篇论文使用的模型是多层的LSTM+Attention机制；损失函数(目标函数)： $J_t =\sum_{(x,y)∈D} − log p(y|x)$ $D$ 是语料库

【2】Attention-based Models

论文中讲了两种模型： $g l o b a l$ 和 $l o c a l$ ；两个模型图如下：
Global Attention：
- 模型图正如上图所示现在解释一下里面的变量：
  - $c_t$ :上下文向量；生成它是需要考虑 $e n c o d e r$ 的所有隐藏层状态向量 $\overline{h_t}$
  - $a_t$

最低0.47元/天解锁文章

菜小白—NLP

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
LSTM-Attention模型：Effective Approaches to Attention-based Neural Machine Translation

参考链接论文链接：https://arxiv.org/pdf/1508.04025v5.pdf项目链接： https://github.com/pytorch/fairseq模型(model)：【1】Neural Machine Translation(NMT):神经机器翻译(NMT)是直接用神经网络去模拟条件概率：p(x∣y)p(x|y)p(x∣y)NMT一般由两个部分组成：...
复制链接

扫一扫