![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
attention
weixin_37958272
这个作者很懒,什么都没留下…
展开
-
Attention Is All You Need
Attention Is All You Need主流的sequence transduction模型是基于复杂的循环或卷积神经网络,包括一个编码器和一个解码器。性能最好的模型还通过注意机制连接编码器和解码器。我们提出了一种新的简单的网络架构–Transformer,完全基于注意力机制,完全不需要递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更胜一筹,同时可并行性更强,所需的训练时间也大大减少。我们的模型在WMT 2014英德双语翻译任务上达到了28.4 BLEU,比现有的最佳结果(包括en翻译 2020-09-04 03:07:46 · 229 阅读 · 0 评论 -
attention表示成k、q、v的方式及self-attention
attention表示成k、q、v的方式:传统的attention(sequence2sequence问题):上下文context表示成如下的方式(h的加权平均):那么权重alpha(attention weight)可表示成Q和K的乘积,小h即V(下图中很清楚的看出,Q是大H,K和V是小h):上述可以做个变种,就是K和V不相等,但需要一一对应,例如:V=h+x_embeddingQ = Hk=h乘法VS加法attention加法注意力:还是以传统的RNN的seq2seq问题为原创 2020-09-04 03:05:28 · 1759 阅读 · 0 评论 -
Neural Machine Translation by Jointly Learning to Align and Translate
Neural Machine Translation by Jointly Learning to Align and Translate神经机器翻译是最近提出的一种机器翻译方法。与传统的统计机器翻译不同,神经机器翻译的目的是建立一个单一的神经网络,可以共同调整,使翻译性能最大化。最近提出的神经机器翻译的模型通常属于编码器-解码器家族,并将源句编码成一个固定长度的向量,解码器从中生成译文。在本文中,我们猜测使用固定长度的向量是提高这种基本编码器-解码器架构性能的瓶颈,并提出通过允许模型自动(软)搜索源句中翻译 2020-09-01 02:27:06 · 1257 阅读 · 0 评论 -
Pointer Networks
Pointer Networksencoder-decoder这些方法仍然需要预先确定输出字典的大小。由于这个限制,我们不能直接将这个框架应用于输出字典的大小取决于输入序列的长度的组合问题。在本文中,我们通过重新利用[5]的注意机制来创建指向输入元素的指针来解决这个限制。2.1 Sequence-to-Sequence Model给定一对训练对,(P, CP),序列到序列模型计算条件概率p(CP∣P;θ)p(\mathcal C^{\mathcal P}|\mathcal P;\theta)p(CP∣翻译 2020-07-08 15:30:41 · 166 阅读 · 0 评论 -
encoder-decoder
encoder-decoderThe Encoder编码器是一个RNN,它按顺序读取输入序列x的每个符号。当它读取每一个符号时,RNN的隐藏状态根据式(1)发生变化,读取序列的结束(用一个序列结束符号表示)后,RNN的隐藏状态是整个输入序列的汇总c。The Decoder该模型的解码器是另一个RNN,它通过预测给定隐藏状态h的下一个符号yt来训练生成输出序列。通过训练预测序列中的下一个符号,RNN可以学习序列上的概率分布。在这种情况下,每个时间步t的输出是条件分布p(xt∣xt−1,...,x1翻译 2020-07-08 15:24:18 · 219 阅读 · 0 评论 -
Neural Machine Translation by Jointly Learning to Align and Translate
Neural Machine Translation by Jointly Learning to Align and Translate3 学习对齐和翻译3.1解码器Si是decoder的在i时刻的隐状态应该注意的是,与现有的编码器-解码器方法不同 ,这里概率取决于每个目标词yi的上下文向量ci。上下文向量ci依赖于一系列注释 h1,...,hTxh_1,...,h_{T_x}h1,...,hTx(encoder的一系列隐状态)每个注释hi包含关于整个输入序列的信息,重点关注围绕输入序翻译 2020-07-08 15:17:00 · 230 阅读 · 0 评论