自注意力机制(self-attention)

最新推荐文章于 2024-08-28 23:27:41 发布

寒杨柳风

最新推荐文章于 2024-08-28 23:27:41 发布

阅读量169

点赞数

分类专栏： machineLearning 文章标签：深度学习人工智能机器学习 transformer

本文链接：https://blog.csdn.net/Diano_lx/article/details/130671368

版权

3 篇文章 0 订阅

订阅专栏

视频链接：https://www.bilibili.com/video/BV1v3411r78R/?spm_id_from=333.337.search-card.all.click&vd_source=8de64249f3698ea673fe42aabb025b29

请添加图片描述

输入：
Vector Set: 句子、声音信号、Graph(consider each node as a vector)

输出：

1 Sequence Labeling(Each vector has a label)

请添加图片描述

第一个saw :看到；第二个saw:锯子
仅仅通过FC无法获取对应的信息，可以通过考虑相邻的向量（window），window的缺点：1、开的太大开销会变大，并且会过拟合；2、开的小效果不好
解决办法：self-attention（self-attention考虑整个sequence）

请添加图片描述

每个 $b_i$ 都考虑了所有的 $a_i$ ,下面以如何产生 $b_1$ 举例：

在sequence中找出跟 $a_1$ 相关的其他向量，做self-attention的目的就是要考虑整个sequence但是又不希望将整个sequence的资料都包含在里面，所以采用机制——根据 $a^1$ 这个向量找出整个sequence哪个向量是重要的，哪个向量对判断 $a^1$ 的label是有关系的。每个向量与 $a^1$ 的关系程度用 $\alpha$ 来表示
self-attention如何决定两个向量之间的关联性（如何求 $\alpha$ ?）

计算关联性有很多方法，但是 $Do t - p ro d u c t$ 最常用，且transformer用到该model，下面均使用该model
如何套用在self-attention中？