![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
注意力机制
poilkj110
这个作者很懒,什么都没留下…
展开
-
Attention Is All You Need
摘要:以复杂循环或卷积神经网络为基础的显性序列转化模型,包括编码和解码。最好表现的模型也连接编码和解码通过注意力机制。我们提出一种新的简单网络架构,Transformer, 只基于注意力机制,丢弃循环和卷积网络。在两个机器翻译任务上的实验显示这些模型在质量上更好,并能更好并行化,要求更少时间训练。 1 简介 循环网络,LSTM和门循环网络是在序列建模和转化问题例如语言建模和机器翻译任务中最好的方原创 2017-12-10 21:34:59 · 6204 阅读 · 0 评论 -
NLP2017总结
注意力机制的思想是我们需要关注在编码器中的一些相关输入去更好的完成解码任务。在最简单例子中相关性被定义为特定输入和当前输出的相似度。这个相似度可以被定义为一些带权的输入之和,其中权重之和为1, 并且最大的权重对应最相关的输入。 在图中,我们可以看到经典的Dzmitry Bahdanau’s方法:我们有一个输入–编码器的隐藏状态和一些系数来求和这个带(a’s)的隐藏状态。这些系数不是预制的,它们由一原创 2018-01-21 21:43:19 · 361 阅读 · 0 评论