AFF Token Mixer

微软亚洲研究院研究人员发现对Token进行傅里叶变换等价于超大尺寸自适应卷积核进行Token融合,且计算代价低。基于此设计了AFF Token Mixer,将计算复杂度降低,构建了轻量级视觉神经网络主干AFFNet。实验表明其在多视觉任务表现出色,为Token融合算子设计和边缘设备部署带来新发展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来自微软亚洲研究院的研究人员发现对 Token 进行傅里叶变换数学上等价于用超大尺寸自适应卷积核进行 Token 融合,而前者的计算代价远低于后者。基于该核心发现,研究员设计了一种名为 Adaptive Fourier Filter(AFF)的轻量高效 Token Mixer,将 Token 融合的计算复杂度从 O (N^2) 降低到 O (N log N),并以此为基础算子构建了轻量级视觉神经网络主干 AFFNet。该主干网络能够以 5.5M 的模型参数量,在 ImageNet-1K 上实现 79.8% 的准确率。

近年来,基于 Transformer、Large-kernel CNN 和 MLP 三种视觉主干网络在广泛的 CV 任务中取得了显著的成功,这要归功于它们在全局范围内的高效信息融合能力。

现有的三大主流神经网络,即 Transformer、CNN 和 MLP,分别通过各自的方式实现全局范围的 Token 融合。其中,Transformer 网络中的自注意力机制将 Query-Key pairs 的相关性作为 Token 融合的权重。CNN 通过扩大 kernel 尺寸实现与 transformer 相近的性能。MLP 通过在所有令牌之间的全连接实现另一种强大的范式。所有这些方法都是有效的,但计算复杂度高 (O (N^2)),难以在存储和计算能力有限的设备上部署,限制了很多模型的应用范围。

AFF Token Mixer: 轻量、全局、自适应

为了解决计算昂贵的问题,研究人员构建了一种名为 Adaptive Fourier Filter(AFF)的高效全局 Token 融合算子。它通过傅里叶变换将 Token 集合变换到频域,同时在频域学习到一个内容自适应的滤波掩膜,对变换到频域空间中的 Token 集合进行自适应滤波操作。

论文《Adaptive Freque

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值