NLP入门-Task9 Attention原理

最新推荐文章于 2024-07-26 17:32:01 发布

绝体绝命

最新推荐文章于 2024-07-26 17:32:01 发布

阅读量553

点赞数

分类专栏：人工智能

本文链接：https://blog.csdn.net/hnlylnjyp/article/details/95990936

版权

本文深入探讨了注意力机制，包括软性和硬性注意力，以及它们在序列到序列模型如指针网络中的应用。进一步讨论了自注意力模型和层级注意力模型，特别是在文档分类中的应用。层级注意力模型利用句子和单词的Attention来捕获文本的层次结构和重要性。

摘要由CSDN通过智能技术生成

注意力机制

注意力机制(Attention Mechanism)是解决信息超载问题的一种资源分配方案，将计算资源分配给更重要的任务。
注意力机制的计算可以分为两步:一是在所有输入信息上计算注意力分布，二是根据注意力分布来计算输入信息的加权平均。
注意力分布采用一种“软性”的信息选择机制，首先计算在给定q和X下，选择第i个输入信息的概率αi：
在这里插入图片描述
其中αi 称为注意力分布(Attention Distribution)，s(xi, q)为注意力打分函数。
加权平均采用一种“软性”的信息选择机制对输入信息进行汇总。
软性注意力机制(Soft Attention Mechanism)：

软性注意力选择的信息是所有输入信息在注意力分布下的期望。

硬性注意力(Hard Attention)只关注到某一个位置上的信息，有两种实现方式：一种是选取最高概率的输入信息，即 att(X, q) = xj , 其中j为概率最大的输入信息的下标，即在这里插入图片描述
另一种是通过在注意力分布式上随机采样的方式实现。
硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。最终的损失函数与注意力分布

最低0.47元/天解锁文章

绝体绝命

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP入门-Task9 Attention原理

Attention原理注意力机制注意力机制应用层级注意力模型注意力机制注意力机制(Attention Mechanism)是解决信息超载问题的一种资源分配方案，将计算资源分配给更重要的任务。注意力机制的计算可以分为两步:一是在所有输入信息上计算注意力分布，二是根据注意力分布来计算输入信息的加权平均。注意力分布采用一种“软性”的信息选择机制，首先计算在给定q和X下，选择第i个输入信息的概率α...
复制链接

扫一扫