动手学深度学习（注意力机制）

最新推荐文章于 2024-02-06 20:14:14 发布

遥感人遥感魂

最新推荐文章于 2024-02-06 20:14:14 发布

阅读量1.1k

点赞数 2

分类专栏：动手学深度学习文章标签： 1024程序员节

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sjisajis/article/details/127497682

版权

动手学深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

注意力机制

自经济学研究稀缺资源分配以来，我们正处在“注意力经济”时代，即人类的注意力被视为可以交换的、有限的、有价值的且稀缺的商品。简而言之就是你的注意力和你的钱一样是有限的，而且可以用来交易。

10.1注意力提示

提示分为随意和不随意（随意是你想要干嘛，就是跟随你的意识。不随意的提示比如环境物体）。举个例子，在桌子上有很多白纸但有一个红色的咖啡杯，吸引了你的注意（不随意）。喝完咖啡后你想学习了，在纸上写点东西（随意）。（卷积等是不随意，如空间位置不变性，没有侧重的进行处理数据）。而注意力机制允许你通过随意线索对不随意线索key进行查询某些有偏向性的value来作为输入。

10.2注意力汇聚：Nadaraya-Watson 核回归

深度学习领域很多东西都是之前提出来的，比如卷积层，池化层都是上世纪八十年代就有的概念，上世纪 60年代其实就有数学概率方面对注意力机制的研究。如不带参数的注意力池化层，f(x)分母其实就做了个归一化，算了每个value乘自己权重最后值，最后证明就是softmax，其实有exp时候就应该想到和softmax有关了。

那数学家当时没有那么好的计算机来计算啊，就想这个数要是能一开始就算出来最好。后来这不是机器学习兴起，注意力机制可以加入可以学出来的w （阿尔法（x，xi））

简单点写就是这样：

10.3. 注意力评分函数

a就是计算出来的注意力分数，values是yi与softmax后的值相乘最后相加得到output

加性attention：k，q长度不同，最后a(k,q)是一个值，k，value可以长得不一样。等价于把k，q合起来放到一个隐藏大小为h，输出大小为1的单隐藏层

当q，k长度一样时，不学东西了。q，k先点积再除

遥感人遥感魂

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。