MLP三部曲——其二：gMLP

最新推荐文章于 2024-06-26 09:49:49 发布

Rainylt

最新推荐文章于 2024-06-26 09:49:49 发布

阅读量2.5k

点赞数

分类专栏： CV Transformer 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/lt1103725556/article/details/124518778

版权

CV 同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

Transformer

9 篇文章 1 订阅

订阅专栏

gMLP

论文链接：https://arxiv.org/pdf/2105.08050.pdf

与其说是去掉了self-attn，不如说是另一种形式的self-attn

我们先回一下self-attn是啥？
在Transformer里面，Q*K后得到Attn矩阵，再乘上V，相当于将所有token混合，每个token都由所有token线性表出（突然感觉大学线代里学到的这个词用在这里十分合理），其中，线性表出的矩阵就是Attn矩阵。

所以self-attn实际上就是attn矩阵*V，这个attn矩阵可以由Q*K得到，也可以自己学啊，我记得以前就已经有这样的工作了。
引用一下我之前画的图：
在这里插入图片描述
attn矩阵的第二维和Value矩阵的第1维相同，左乘上去即可得到Result矩阵

而在gMLP中，初版是这样：
在这里插入图片描述

一个(n, n)的attn矩阵*(n, embedding)的token矩阵，对每个token做自注意力
但作者不满足，改一下，自己乘自己：
在这里插入图片描述
用自注意力融合后的自己乘(点乘)自己，相当于啥？不知道。
再魔改一下，先把自己按Channel分两份，一份不变，一份做自注意力，再相乘，就是最终的模块：

当然，分支先做一个归一化，也算有迹可循了，可以看作一个权重矩阵
也有这几种方法的对比实验：
在这里插入图片描述
最后发现还是这种Split的方法好。不过为啥参数量会加一点？

顺带补一句，gating是什么意思？
就是门控操作，意思是为每个元素加一个门，来控制这个元素是否应该通过，或者说通过多少。说白了就是点乘一个矩阵对每个元素做映射，但不会做元素间的操作。这里拿归一化+自注意力后的矩阵做gate，感觉没有太好的说法。

值得一提的是，gMLP分支上再叠一个单头自注意力就能进步许多
在这里插入图片描述

论文里有这个图我是没看懂：
在这里插入图片描述
说是attn矩阵的中间一行（每个值对应对于中间这一个token，128个token的权重），照理说就应该自己最大，也就是最中间的数值最大，其他的各取一些。这里这么多样可能是表达学到了不同的特征？或者这么平滑？

Rainylt

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
MLP三部曲——其二：gMLP

gMLP论文链接：https://arxiv.org/pdf/2105.08050.pdf与其说是去掉了self-attn，不如说是另一种形式的self-attn我们先回一下self-attn是啥？在Transformer里面，Q*K后得到Attn矩阵，再乘上V，相当于将所有token混合，每个token都由所有token线性表出（突然感觉大学线代里学到的这个词用在这里十分合理），其中，线性表出的矩阵就是Attn矩阵。所以self-attn实际上就是attn矩阵*V，这个attn矩阵可以由Q*
复制链接

扫一扫

专栏目录