【深度学习3】Self-Attention注意力机制（李宏毅）

烈日松饼

已于 2022-09-18 20:37:01 修改

阅读量923

点赞数

分类专栏： DeepLearn 学习笔记文章标签：人工智能深度学习

于 2022-09-18 12:21:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MaoZhihang/article/details/126914533

版权

DeepLearn 学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

2021 - 自注意力机制(Self-attention)(上)_哔哩哔哩_bilibili

2021 - 自注意力机制 (Self-attention) (下)_哔哩哔哩_bilibili

目录

三种输入输出间关系

注意力机制原理

Self-attention的问题

和其他网络对比

在Graph上的应用

三种输入输出间关系

3种类型的输出，只讲第一种类型

常规方法

但是句子长度有长有短，这种方法不合适

注意力机制原理

展开：

计算a1和后面所有输入之间的相关性α

计算α的两种方式，将两个输入分别乘wq和wk矩阵，结果再处理得到α，左边方法最常用。

具体流程，计算出自相关和互相关后经过softmax或者Relu都可以：

矩阵化计算

只需学习wq、wk、wv三个矩阵的参数

multi-head Self-attention

因为一个Q和V只负责了一个种类的相关性，需要多个Q和K，负责多个总类的相关性。

Q K V分别乘一个矩阵分成两个，分开相乘，最后的b1和b2拼起来作为最后的结果。

Self-attention的问题

没有对每个词向量的位置编码，少了位置信息。（没有距离远近之分，天涯若比邻）

拼接position encoding

当句子太长，会导致相关性矩阵太大，可以只考虑一部分不考虑全局。

CNN就是简化版的Self-attention，如果Self-attention 参数设置合适可以达到和CNN一样的效果。

每一个像素pixel是一个长度为3的向量。

和其他网络对比

数据量越大self-attention训练效果越好，数据量少了CNN效果好，因为弹性小。

和RNN对比，RNN容易忘记长的序列，并且不能平行处理， ST天涯若比邻。

RNN接近淘汰了快，可以被S-AT代替。

在Graph上的应用

在图上计算S-AT时，只需计算有edge相连的边就好，不用全部计算了。

没有关联相关性就不用SAT计算，直接是0。

把S-AT用在Grapu上是某一种类型的GNN。

更多

更多S-AT的变行可以看下面这两篇论文的介绍。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【深度学习3】Self-Attention注意力机制（李宏毅）

self—attention原理讲解
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。