NLP入门-Task9 Attention原理

本文深入探讨了注意力机制,包括软性和硬性注意力,以及它们在序列到序列模型如指针网络中的应用。进一步讨论了自注意力模型和层级注意力模型,特别是在文档分类中的应用。层级注意力模型利用句子和单词的Attention来捕获文本的层次结构和重要性。
摘要由CSDN通过智能技术生成

注意力机制

注意力机制(Attention Mechanism)是解决信息超载问题的一种资源分配方案,将计算资源分配给更重要的任务。
注意力机制的计算可以分为两步:一是在所有输入信息上计算注意力分布,二是根据注意力分布来计算输入信息的加权平均。
注意力分布采用一种“软性”的信息选择机制,首先计算在给定q和X下,选择第i个输入信息的概率αi:
在这里插入图片描述
其中αi 称为注意力分布(Attention Distribution),s(xi, q)为注意力打分函数。
加权平均采用一种“软性”的信息选择机制对输入信息进行汇总。
软性注意力机制(Soft Attention Mechanism):
在这里插入图片描述
软性注意力选择的信息是所有输入信息在注意力分布下的期望。

硬性注意力(Hard Attention)只关注到某一个位置上的信息,有两种实现方式:一种是选取最高概率的输入信息,即 att(X, q) = xj , 其中j为概率最大的输入信息的下标,即在这里插入图片描述
另一种是通过在注意力分布式上随机采样的方式实现。
硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。最终的损失函数与注意力分布

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值