论文信息
标题: FFT-based Dynamic Token Mixer for Vision
论文链接: https://arxiv.org/pdf/2303.03932
关键词: 深度学习、计算机视觉、对象检测、分割
GitHub链接: https://github.com/okojoalg/dfformer
创新点
本论文提出了一种新的标记混合器(token mixer),称为动态滤波器(Dynamic Filter),旨在解决多头自注意力(MHSA)模型在处理高分辨率图像时的计算复杂度问题。传统的MHSA模型在输入特征图中像素数量的平方上具有计算复杂度,导致处理速度缓慢。通过引入基于快速傅里叶变换(FFT)的动态滤波器,论文展示了在保持性能的同时显著降低计算复杂度的可能性。
方法
论