链接
代码:GitHub - c-yn/OKNet: [AAAI2024] Omni-Kernel Network for Image Restoration
创新性
本文创新性:1)在避免大量参数的情况下,合理的将卷积核(感受野)扩展到特征大小。2)对于推理时,输入图像大小不定,大感受野也不一定完全覆盖整个特征层,选择傅里叶变换后的频域信息,旨在完成细化全局内容。
结构
整体OKNet为类U-Net结构,ResGroup作为其中的基本模块,OKM作为U型结构的瓶颈的核心模块,具有巨大的卷积核(63*63)。
ResGroup:由多个残差块组成,每个残差块包括两个3×3卷积,中间是非线性激活GELU。
OKM(核心):分为三个分支(局部分支,大分支和全局分支),三个分支的结果然后通过加法融合,并通过另一个1×1卷积整合出结果。
大分支:我们应用核大小K×K的深度卷积来追求大的接受域。受基于strip的自注意,我们还使用1×K和K ×1深度卷积来获取strip形状的上下文信息。为了避免引入大量计算开销,我们将模块置于瓶颈处。然后,我们探索了通过逐步增加k来使用极大卷积进行图像恢复的可能性。一般来说,将核大小K增大,指标就会增大。训练所用的图片大小为256,在瓶颈处特征缩小到64大小,因此最终选择K=63。
全局分支:在推理阶段,输入的退化图像比训练的图像(256)大得多。因此,63 × 63内核无法覆盖全局图像。为了缓解这个问题,我们通过双域处理在全局分支中添加全局建模功能。其中,全局分支包括双域通道注意模块(DCAM)和基于频率的空间注意模块(FSAM),如图1。
傅里叶变换后的频域通过卷积便能感受到全局内容。这里的DCAM和FSAM的区别与之前的CBAM通道注意力/空间注意力机制类似。
局部分支:受局部信息在图像恢复中起重要作用这一事实的启发,除了捕获大规模感受野的外,一个非常简单但有效的局部分支,通过使用1 × 1深度卷积层进行局部信号整合。