NLP-生成模型-2014:Seq2Seq+Attention(首次:利用QKV从大量信息中抽取对任务重要的信息;抽取文档中重要的句子;抽取句子中重要的单词)【案例:AttentionNMT用于翻译】

本文深入探讨了Attention机制在神经机器翻译中的重要作用,首先介绍了Attention的提出及其解决的问题,然后详细阐述了Attention结构、实现过程和不同类型的Attention模型,包括Soft、Hard和Local Attention。接着,讨论了Decoder中的注意力计算规则和Encoder-Decoder模型的工作原理。此外,还展示了Attention模型在英译法任务中的实验结果和BLEU评价指标。最后,通过代码示例解析了Attention在Seq2Seq模型中的应用。
摘要由CSDN通过智能技术生成

《原始论文:Neural Machine Translation by Jointly Learning to Align and Translate》:第一篇将Attention用于Seq2Seq模型的文献。

Attention机制:从Encoder的输入序列的很多信息中根据当前时间步Decoder的状态选出“解码任务所需要的信息”。

在普通的RNN结构中,Encoder需要把一个句子转化为一个向量,然后在Decoder中使用,这就要求Encoder把源句子中所有的信息都包含进去,但是当句子长度过长的时候,这个要求就很难达到,或者说会产生瓶颈(比如,输入一篇文章等场长内容),当然我们可以使用更深的RNN和大多的单元来解决这个问题,但是这样的代价也很大。那么有没有什么方法能够优化现有的RNN结构呢?

为此,Bahdanau等人在2015年提出了Attenion机制,Attention翻译成为中文叫做注意力,把这种模型称为Attention based model。就像我们自己看到一副画,我们能够很快的说出画的主要内容,而忽略画中的背景,因为我们注意的&#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值