NLP-生成模型-2014：Seq2Seq+Attention（首次：利用QKV从大量信息中抽取对任务重要的信息；抽取文档中重要的句子；抽取句子中重要的单词）【案例：AttentionNMT用于翻译】

u013250861

已于 2024-02-14 13:56:55 修改

阅读量965

点赞数

分类专栏： # NLP/词向量_预训练模型 # LLM/Transformer 文章标签：人工智能 Attention机制注意力机制

于 2021-04-08 12:39:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/115516636

版权

LLM/Transformer 同时被 2 个专栏收录

40 篇文章 13 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

NLP/词向量_预训练模型

27 篇文章 4 订阅

订阅专栏

本文深入探讨了Attention机制在神经机器翻译中的重要作用，首先介绍了Attention的提出及其解决的问题，然后详细阐述了Attention结构、实现过程和不同类型的Attention模型，包括Soft、Hard和Local Attention。接着，讨论了Decoder中的注意力计算规则和Encoder-Decoder模型的工作原理。此外，还展示了Attention模型在英译法任务中的实验结果和BLEU评价指标。最后，通过代码示例解析了Attention在Seq2Seq模型中的应用。

摘要由CSDN通过智能技术生成

《原始论文：Neural Machine Translation by Jointly Learning to Align and Translate》：第一篇将Attention用于Seq2Seq模型的文献。

Attention机制：从Encoder的输入序列的很多信息中根据当前时间步Decoder的状态选出“解码任务所需要的信息”。

在普通的RNN结构中，Encoder需要把一个句子转化为一个向量，然后在Decoder中使用，这就要求Encoder把源句子中所有的信息都包含进去，但是当句子长度过长的时候，这个要求就很难达到，或者说会产生瓶颈（比如，输入一篇文章等场长内容），当然我们可以使用更深的RNN和大多的单元来解决这个问题，但是这样的代价也很大。那么有没有什么方法能够优化现有的RNN结构呢？

为此，Bahdanau等人在2015年提出了Attenion机制，Attention翻译成为中文叫做注意力，把这种模型称为Attention based model。就像我们自己看到一副画，我们能够很快的说出画的主要内容，而忽略画中的背景，因为我们注意的&#

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。