注意力模型

最新推荐文章于 2024-07-15 19:41:51 发布

Doooer

最新推荐文章于 2024-07-15 19:41:51 发布

阅读量1.4k

点赞数 3

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YQMind/article/details/88091309

版权

注意力模型是一种加权求和方法，源于nlp领域的机器翻译任务。它包括软注意力、硬注意力和局部注意力等形式，以及通用注意力和自注意力。多层和多头注意力则引入层次结构，其中多头注意力是谷歌Transformer论文中的关键概念。权重计算通常涉及query和key的相似度比较。

摘要由CSDN通过智能技术生成

好记性不如烂笔头，现在整理一下attention model的各种类型。

什么是attention

一句话来说，attention是一个加权求和，重点是如何计算权重。我们有一个query向量（包含比较多信息的全局向量），一段key向量，利用query对所有key进行加权求和。

背景

在nlp领域，首先将attention用于机器翻译，显然，在进行翻译的时候，会关注不同的原文信息。
具体来说，在机器翻译任务中，query可以定义成decoder中某一步的hidden state，key是encoder中每一步的hidden state，我们用每一个query对所有key都做一个对齐，decoder每一步都会得到一个不一样的对齐向量。

Attention的多种形式

根据attention的计算区域，可以分为soft attention, hard attention 和 local attention。 Soft attention是比较常见的，也就是我们上面提到的对所有key进行加权求和。而hard attention是直接精确定位到某个key，其他key都忽略。Local attention是两者的折中，通过hard模式定位到某个地方，以此为中心得到一个区域，在该区域内用soft模式。
根据是否有外部信息，可以分为general attention和self attention。General attention利用了外部信息，即query和key不同。Self attention只使用了内部信息，即query=key=value。<

最低0.47元/天解锁文章

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
注意力模型

好记性不如烂笔头，现在整理一下attention model的各种类型。什么是attention一句话来说，attention是一个加权求和，重点是如何计算权重。我们有一个query向量（包含比较多信息的全局向量），一段key向量，利用query对所有key进行加权求和。背景在nlp领域，首先将attention用于机器翻译，显然，在进行翻译的时候，会关注不同的原文信息。具体来说，在机器...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。