【自然语言处理】:自注意力机制(self-attention)原理介绍

一.最常见的self-attention  

  对于自注意力机制而言,我们有的时候会遇到词性分类的任务,比如说给定一句话,我想知道这句话当中每一个单词的词性。但是使用双向lstm呢,会有很多信息被忽略掉,尤其是一些位于后面的词很可能前面的词对它的影响没有那么大,即使我们的lstm考虑了一些遗忘门,增强记忆的一些机制,位于最前面的单词和最后面的单词之间始终是具有一定距离的,而self-attnetion则可以直接对收尾的单词计算其相关性,没有任何的数据损失。因此我们可以采用自注意力机制,也就是self-attention来解决这个问题。同时self-attention在transformer当中也有着广泛的应用。

   如上图所示,蓝色部分表示self-attention,首先我们self-attention找到每一个向量之间的联系,看是否考虑某一个向量对第一个向量a1会产生影响。而我们可以通过如下的方法来计算两个向量之间的相关联程度。如下图所示:

  首先,我们拿到绿色的部分 。绿色

  • 2
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Multi-head masked self-attention是Transformer模型中的一种注意力机制。在这种机制中,输入序列中的每个位置都被当作查询来计算注意力权重,然后根据这些权重对所有位置进行加权求和以得到最终的表示。 Multi-head表示将注意力机制分为多个头部进行独立计算,每个头部都具有自己的参数。这样可以让模型同时关注不同位置和不同表示子空间的信息,提高了模型的表达能力和泛化能力。 Masked self-attention是在计算注意力权重时引入的一种掩码机制。通过在注意力计算中使用一个掩码矩阵,可以阻止模型关注当前位置之后的信息,从而保证模型在预测当前位置时只使用了之前的信息。这在解决序列生成任务中非常有用,例如语言模型或机器翻译。 因此,multi-head masked self-attention是一种在Transformer中使用的注意力机制,它允许模型同时关注不同位置和不同表示子空间的信息,并通过掩码机制保证模型在预测时只使用了之前的信息。这种机制在提高模型表达能力和解决序列生成任务中起到了重要作用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [层层剖析,让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理](https://blog.csdn.net/zhaohongfei_358/article/details/122861751)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值