参考:11.频域里的卷积——介绍,傅里叶变换和卷积,快速傅里叶变换(FFT)_1_频域卷积-CSDN博客
这里提出重要的前置:我们要知道两个图像A和B的卷积,等于A和B经过傅里叶变换相乘,然后逆变换回来。
FSAS:Frequency domain-based self-attention solver
自注意力中的全连接可以用reshape+卷积替换
DFFN:Discriminative frequency domain-based FFN
然后用频域的乘法替换空间域中的卷积,这些操作主要是为了减少计算量。
这里主要是通过一个可学习的量化矩阵W,去实现注意力,有选择的去掉高频或低频信息。感觉就是一个卷积核。
这里提到JPEG的逆压缩过程,主要是这个过程与JPEG的逆压缩过程相似,不必太过关注。
Asymmetric encoder-decoder network
解码阶段使用了FSAS,原因是编码阶段过深的网络会减少原始图片中模糊的影响。
最后做了一个跳跃连接,表示预测的结果其实是模糊的部分。