AFF Token Mixer

最新推荐文章于 2025-04-25 15:24:01 发布

whaosoft143

最新推荐文章于 2025-04-25 15:24:01 发布

阅读量142

点赞数 1

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/qq_29788741/article/details/132298529

版权

微软亚洲研究院研究人员发现对Token进行傅里叶变换等价于超大尺寸自适应卷积核进行Token融合，且计算代价低。基于此设计了AFF Token Mixer，将计算复杂度降低，构建了轻量级视觉神经网络主干AFFNet。实验表明其在多视觉任务表现出色，为Token融合算子设计和边缘设备部署带来新发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来自微软亚洲研究院的研究人员发现对 Token 进行傅里叶变换数学上等价于用超大尺寸自适应卷积核进行 Token 融合，而前者的计算代价远低于后者。基于该核心发现，研究员设计了一种名为 Adaptive Fourier Filter（AFF）的轻量高效 Token Mixer，将 Token 融合的计算复杂度从 O (N^2) 降低到 O (N log N)，并以此为基础算子构建了轻量级视觉神经网络主干 AFFNet。该主干网络能够以 5.5M 的模型参数量，在 ImageNet-1K 上实现 79.8% 的准确率。

近年来，基于 Transformer、Large-kernel CNN 和 MLP 三种视觉主干网络在广泛的 CV 任务中取得了显著的成功，这要归功于它们在全局范围内的高效信息融合能力。

现有的三大主流神经网络，即 Transformer、CNN 和 MLP，分别通过各自的方式实现全局范围的 Token 融合。其中，Transformer 网络中的自注意力机制将 Query-Key pairs 的相关性作为 Token 融合的权重。CNN 通过扩大 kernel 尺寸实现与 transformer 相近的性能。MLP 通过在所有令牌之间的全连接实现另一种强大的范式。所有这些方法都是有效的，但计算复杂度高 (O (N^2))，难以在存储和计算能力有限的设备上部署，限制了很多模型的应用范围。

AFF Token Mixer: 轻量、全局、自适应

为了解决计算昂贵的问题，研究人员构建了一种名为 Adaptive Fourier Filter（AFF）的高效全局 Token 融合算子。它通过傅里叶变换将 Token 集合变换到频域，同时在频域学习到一个内容自适应的滤波掩膜，对变换到频域空间中的 Token 集合进行自适应滤波操作。

论文《Adaptive Freque