Agent Attention On the Integration of Softmax and Linear Attention

1 前言

本文要是对《Agent Attention On the Integration of Softmax and Linear Attention》这篇论文的一个解读与总结,原文链接[2312.08874] Agent Attention: On the Integration of Softmax and Linear Attention

本文提出一种新型Transformer模型,它结合了Linear Attention和Softmax Attention的优点,在计算效率和表示能力之间取得良好的平衡。具体来说,Agent Attention,表示为四元组\left ( Q,A,K,V \right ),在传统的Attention模块中引入了一组额外的Agent token A。Agent token首先作为Query token Q的代理,从K和V中聚合信息,然后将信息广播回Q。代理令牌的数量可以设计得比查询令牌的数量小得多,从而减少了时间复杂度。本文证明了所提出的代理注意等同于线性注意的广义形式。

2 现有研究存在的问题

        上图描述了Softmax Attention,Linear Attention,Agent Attention三种注意力机制的计算过程。

        自Vision Transformer诞生以来,自关注在计算机视觉领域取得了显著的进步。然而,普遍存在的Softmax注意力的二次复杂度给将自注意应用于视觉任务带来了挑战。以下是一些常见的注意力机制的简单介绍,同时分析了它们各自的优缺点。

(1)Softmax注意力机制

        做法:采用Softmax函数计算Q,K之间的注意力权重。

        公式: Softmax Attention= Softmax\left ( Q,K \right )V 。

        优点:可以关注的到全局感受野。

        缺点:时间复杂度为二次,复杂度高不适合处理长序列数据。

(2)线性注意力机制

        做法:抛弃了Softmax函数,使用映射函数 \Phi \left ( \cdot \right ) 代替Softmax函数计算Q,K之间的注意力权重,改变计算次序从

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二三两。

你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值