Neural Machine translation中的Attention机制

最新推荐文章于 2024-06-22 11:00:51 发布

trayfour

最新推荐文章于 2024-06-22 11:00:51 发布

阅读量2k

点赞数

分类专栏：机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014422406/article/details/52809749

版权

本文介绍了神经机器翻译（NMT）如何超越统计机器翻译，并重点讨论了注意力机制在NMT中的作用。注意力机制解决了传统encoder-decoder框架中信息丢失的问题，通过biRNN获取单词的前后信息，并利用单层神经网络动态地为每个词分配权重，以选择性地关注上下文。此外，注意力机制还有助于词对齐和无监督学习。

摘要由CSDN通过智能技术生成

随着深度学习的发展，NMT(Neural machine translation)已经逐渐取代了SMT（statistic MT）。其最大的有点就是系统的整体和简单，少去了统计机器翻译中的分词，对齐。抽短语等繁琐的步骤。

而NMT的大致流程和思想可以去参考下面的链接，讲的很详细。
https://devblogs.nvidia.com/parallelforall/introduction-neural-machine-translation-with-gpus/

说到NMT不得不提到RNN,GRU,LSTM这些网络结构。这些东西在这里就不做介绍。另外一个已经被大家公认的很有价值的发现就是Attention机制。首先通俗的介绍一下它的思想。

例如我们在翻译（我昨天有事，所以他替我去北京了）的时候翻译“去”这个词的时候，人们的注意力是集中于几个词上面，而不是整句话上面的。这里这里（昨天，他）都对去的翻译起很大的影响，Attention的思想就是将所有词分配一个权重来表示对现在的翻译的上下文的重要性。
1，首先介绍Attention机制解决的问题。
这里写图片描述
上图说明一个问题，当用传统encoder-decoder框架的时候，encoder的表达能力有限，任意长度的句子都会把encoder压缩到一个有限制维度的向量中，

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄10年

36
原创

103
点赞

194
收藏

43
粉丝

关注

私信

热门文章

分类专栏

最新评论

Evaluation of Parsing 句法分析评测
qq_37236894: 感谢大佬受益匪浅
统计不同时间段在线人数，给定若干（进入，离开）时间对
zzssddffgg: 感觉有些问题，我的理解： result[i] = result[i - 1] + nbegin[i] - nend[i]
统计不同时间段在线人数，给定若干（进入，离开）时间对
各位观众全体起立: 楼主这样写还是没考虑全哈，比如用户在1时进来，1时离开，这样算法结果会记录在1时刻人数为0，因此需要在第一个for循环里面加一个相等判断，如果相等，那么nend直接pass
Constituent Parsing & Dependency Parsing 句法分析简介
六七～: 请问怎么使用这两种算法的结果对一个长句子进行分段？也就死您说的将一些词组合起来变成短语结构
sigmoid和softmax总结
黑山白雪m: sigmoid本来就是二分类的，softmax不同之处在于归一化加入了类内竞争，其实多分类也可以用多个二分类分支实现，这样就不存在类内竞争，适合单样本不同语义标签的识别。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。