Efficient Frequency Domain-based Transformersfor High-Quality Image Deblurring(CVPR23)
这里主要是通过一个可学习的量化矩阵W,去实现注意力,有选择的去掉高频或低频信息。这里提出重要的前置:我们要知道两个图像A和B的卷积,等于A和B经过傅里叶变换相乘,然后逆变换回来。这里提到JPEG的逆压缩过程,主要是这个过程与JPEG的逆压缩过程相似,不必太过关注。解码阶段使用了FSAS,原因是编码阶段过深的网络会减少原始图片中模糊的影响。然后用频域的乘法替换空间域中的卷积,这些操作主要是为了减少计算量。最后做了一个跳跃连接,表示预测的结果其实是模糊的部分。自注意力中的全连接可以用reshape+卷积替换。
原创
2024-05-16 16:09:40 ·
290 阅读 ·
0 评论