论文地址:https://arxiv.org/abs/1706.03762
notes:在transform中使用到了self-attention,所以对其中进行简要笔记。
Q1:为什么要提出self-attention?
A1:self-attention就是想让计算机和人一样有关注的重点
比如:qinxin is a good gril,she looks beautiful,
其中这个she代表的是哪一个,对于我们来说很简单,对于计算机就很难,所以需要让计算机的注意力,集中到qinxin上去,就是我们要做的部分。
Q2:基本流程
A2:首先我们输入4个向量,然后通过self-attention全部进行接收,然后进行self-attention后,输出的结果就是with context的了(与背景或是上下文有关的了),之后在进行操作之后就不仅仅是只考虑在单独的输入对象,而考虑的是整体(如在进行3D-UNet 类似,进行上下文提取)。
如图下面是4个输入向量,其中是对于的输出向量。
需要和进行比较,得出各个比较值中的然后权值最大的就是输出的
台大李宏毅21年机器学习课程 self-attention和transformer_哔哩哔哩_bilibili