self_attention 注意力机制

东东要拼命

已于 2022-10-27 20:08:34 修改

阅读量195

点赞数

分类专栏： CV基础知识文章标签：人工智能机器学习深度学习 deep learning

于 2022-10-27 19:36:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_68308828/article/details/127557070

版权

CV基础知识专栏收录该内容

56 篇文章 1 订阅

订阅专栏

self_attention 注意力机制是干嘛的：

不过得扯点别的因为要学习 transformer 就必须先掌握注意力机制这个东西

而self-attention是一个好东西，可以提供上下文信息，让这个machine去了解每个part的相关性，而不是独立的去实行人工智障算法。

拿大佬李宏毅老师的例子

现在有个句子 i saw a saw. 我看见（saw）了一把锯子(saw)。

现在的task是辨别每个单词的词性如果没有联系上下文就扔到网络中，那么它的输出结果就是

i （n） saw (v) a(冠词) saw(v) 其中最后面一个saw 是名词吧

那么加入这个attention之后啊他就知道得根前后上下文信息建立某种关联 最终输出正确答案、

i （n） saw (v) a(冠词) saw()

这个α需要一个计算的方式

拿两个向量vector作为输入input

比较常见的做法是使用

Daproda哈哈

用刚才的两个向量乘以权重qk矩阵，分别得到q,k

再让q，k做点乘运算 DaprodaO(∩_∩)O哈哈~

从外还有另外的方式计算关联

query 搜寻关键字

1,2关联性也有一个称号叫做注意力分数 attention score

在实际做的时候，也会跟自己计算关联性

计算完之后在做一个softmax

不一定要用softmax 可以用别的激活函数 relu还更好一点

然后根据这个分数抽取更重要的知识资讯

乘以这个Wv矩阵得到V1

以此类推

把这个得到的V1乘以刚才得到的注意力分数

然后在累加起来

这里的b1b2b3b4 不需要依序产生

一次同时被计算出来

接下来换一个角度

从矩阵的角度出发

把之前的a1a2a3a4可以看成一个矩阵，记作I来表示

这个是network的参数

好好学矩阵啊兄弟们

这个α是之前提到过的注意力分数，其中是需要转置，才能计算

真的要好好学矩阵的基础知识的哟

这是self-attention唯一需要学的参数

这篇说实话有点水，实在学不下去了，边看边做的PPT笔记，但其实思路还是很清晰的

毕竟是做的大佬的笔记，哈哈

东东要拼命

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
self_attention 注意力机制

self_attention 注意力机制self_attention 注意力机制是干嘛的：不过得扯点别的因为要学习 transformer 就必须先掌握注意力机制这个东西而self-attention是一个好东西，可以提供上下文信息，让这个machine去了解每个part的相关性，而不是独立的去实行人工智障算法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

东东要拼命 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。