目录
引言
单图像超分辨率 (Single Image Super-Resolution, SISR) 是计算机视觉中的基础性任务,旨在将低分辨率 (LR) 图像还原或重构出高分辨率 (HR) 图像。经典卷积神经网络 (CNN) 如 SRCNN、EDSR、RDN 已经在重建质量上取得了显著突破。然而,如何在深层网络中重点关注对高频细节恢复起关键作用的特征通道成为研究热点。
RCAN (Residual Channel Attention Network) 由 Yulun Zhang 等人在 2018 年提出,核心在于残差结构与通道注意力 (Channel Attention) 的结合,使网络能够学习到哪些通道在恢复高分辨率细节中更为重要,从而在多个公开数据集 (DIV2K, Flickr2K 等) 上取得了更高的 PSNR/SSIM。
RCAN 关键思想
- Residual in Residual (RIR):将网络划分为多个残差组 (Residual Group, RG),并在组内外分别构造残差,保证在非常深的网络下依旧能稳定训练。
- 通道注意力机制 (Channel Attention):借鉴 Squeeze-and-Excitation (SE) 思想,对每个卷积块输出的多通道特征进行加权,突出在重建细节中更关键的通道特征。
- 端到端多层次特征融合:与其他超分网络类似,RCAN 最终通过上采样模块 (如 PixelShuffle) 将特征映射到目标高分辨率空间,端到端训练和推断。
网络结构与数学表达
整体框架 (Residual in Residual, RIR)
假设输入低分辨率图像为 I LR I_{\text{LR}} ILR,输出高分辨率图像为 I ^ HR \hat{I}_{\text{HR}} I^HR,放大倍数为 s s s。RCAN 利用分层次的残差结构进行深层特征提取,可概括为:
-
浅层特征提取:
F 0 = W head ∗ I LR + b head , F_0 = W_{\text{head}} * I_{\text{LR}} + b_{\text{head}}, F0=Whead∗ILR+bhead,
其中 ∗ * ∗ 表示卷积操作, F 0 F_0 F0 为初始特征图。 -
多个 Residual Group (RG) 串联:
记第 i i i 个 RG 为 G i \mathcal{G}_i Gi,若共有 G G G 个 RG,则
F i = G i ( F i − 1 ) , i = 1 , … , G , F 0 = F 0 . F_i = \mathcal{G}_i(F_{i-1}), \quad i = 1,\dots,G,\quad F_0 = F_0. Fi=Gi(Fi−1),i=1,…,G,F0=F0.
得到最后一个 RG 输出 F G F_G FG,RCAN 还在此之上加全局残差连接:
F RIR = F 0 + W glob ∗ F G . F_{\text{RIR}} = F_0 + W_{\text{glob}} * F_G. FRIR=F0+Wglob∗FG.
这便是 RIR 结构的全局残差路径,保证深层网络稳定。 -
上采样模块:
用 PixelShuffle 或转置卷积将特征图从 LR 尺寸放大到 HR 尺寸:
F up = H Up ( F RIR ) . F_{\text{up}} = H_{\text{Up}}\bigl(F_{\t