【Transformer】20、SOFT: Softmax-free Transformer with Linear Complexity


在这里插入图片描述

本文收录于 NeurIPS 2021

论文链接:https://arxiv.org/pdf/2110.11945.pdf
代码链接:https://github.com/fudan-zvg/SOFT

一、背景

基于 self-attention 的 transformer 虽然取得了较好的效果,但其计算量和内存都和是输入分辨率大小的平方。

作者认为这种计算限制来源于计算概率时使用的 softmax self-attention。

一般的 self-attention 都是计算规范化的 token 特征的内积计算得到,保持这种 softmax 操作对后面的线性化操作有些挑战。

所以,本文作者提出了 softmax-free transformer, SOFT,在 self-attention 中移除了 softmax,使用高斯核函数来代替内积,能够通过低秩矩阵分解来近似得到 self-attention 矩阵。

在这里插入图片描述

二、方法

2.1 Softmax-free self-attention formulation

在这里插入图片描述

输入为 X,要进行 attention ,首先要通过映射得到 Q, K, V:

在这里插入图片描述

self-attention 的计算如下:

在这里插入图片描述

α \alpha α 为计算 self-attention map 的过程,由非线性函数 β \beta β 和 relation function γ \gamma γ 组成:

一般的形式如下:
在这里插入图片描述
为了简化计算,作者使用如下方式代替:
在这里插入图片描述

为了保持 attention matrix 的对称性,作者设定 Q 和 K 的映射函数一样,所以,本文的 self-attention matrix 如下:
在这里插入图片描述

2.2 通过矩阵分解来实现低秩规范化

为了降低计算量,作者参考 Nystrom[38] 来实现低秩矩阵近似,可以不用计算全部的 self-attention。

规范化的 self-attention matrix S ^ \hat S S^ 如下:
在这里插入图片描述

三、效果

SOFT 及其变体如下:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆呆的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值