注意力机制原理_Attention注意力机制

注意力机制再NLP领域十分的火热,他克服了以往seq2seq翻译定位不准的问题,加强了词的前后联系,能够根据当前的语境,合理的分配候选词的权重,提升翻译的准确率。

注意力机制的原理便是寻找当前语境(当前状态)与各个候选词之间的匹配度,计算各个候选词的得分,最终选取合成最佳的词汇。

3dea56cb738d0341a157acea526e9c99.png

如上图所示,再decoder进行翻译解码时,会根据当前的状态,与encoder中的各个词汇的编码输出计算一个得分(步骤一);计算完得分后,所有的得分经过一个softmax进行了归一化,然后得分成encoder编码(步骤二);再将其编码求和(得分*编码相当于对编码进行加权求和)(步骤三);最后,addition与上一状态求解出下一个词的翻译。(上图参考链接:https://www.cnblogs.com/ydcode/p/11038064.html)

目前主流的计算得分的方式有以下三种:

4c138852130a429ae80e4cd7f11efefb.png

上图来自:https://blog.csdn.net/xiaosongshine/article/details/90573585

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
注意力机制是一种模拟人类视觉和听觉系统的机制,可以在输入和输出之间建立一个权重分配的关系。在深度学习中,注意力机制通常被用于处理序列数据,如自然语言处理、语音识别等任务,以提高模型的性能。 注意力机制原理是根据输入的特征向量,计算出每个特征向量与当前状态之间的相似度,然后根据相似度的值对输入进行加权求和,得到一个加权向量作为当前状态的表示。这个加权向量反映了每个输入向量的重要程度,因此可以更好地捕捉输入序列中的关键信息。 具体来说,注意力机制可以分为三个步骤: 1. 计算注意力权重 对于输入序列中的每个元素,都计算它与当前状态之间的相似度。这个相似度可以用余弦相似度、点积等方法计算,得到一个权重值。 2. 归一化注意力权重 将每个注意力权重值除以所有权重值的总和,以确保它们的总和为1。这样做可以使得每个注意力权重值都表示一个相对的重要程度。 3. 加权求和 将归一化的注意力权重值与输入序列中的元素相乘,并将乘积求和,得到一个加权向量。这个加权向量即为当前状态的表示,它能够更好地捕捉输入序列中的关键信息。 总的来说,注意力机制通过动态地计算每个输入元素的权重,从而使模型能够更加关注重要的信息,从而提高模型的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值