思维的碰撞:小波变换偶遇深度学习

编辑:Happy
首发:AIWalker

标题&作者团队

本文是浙江大学于2019提出的一种基于小波的图像超分方案,算是比较“老”的一种方案了。不过考虑到它的创新:将小波变换与深度学习相结合,本文还是值得略读一番。不同于其他深度学习图像超分方案,本文采用小波变换提取图像的四组系数并作为网络的输入,预测残差图像的小波系数。这不同于常规方案的直接进行图像复原或者残差图像复原,小波系数的预测使得其具有更好的鲁棒性。

Abstract

现有的基于深度学习的图像超分往往采用更深、更宽的架构提升重建图像质量,这就导致了更大的计算量、更慢的推理速度。尽管也有研究员设计轻量型网络用语图像超分,但往往造成性能损失。

本文提出一种基于小波的残差注意力网络(wavelet-based residual attention network, WRAN)用于图像超分。具体来说,该网络的输入与标签是由2D小波变换生成的四组系数,通过显式地将图像拆分为高低频四个通道有助于降低训练难度。与此同时,我们提出多核卷积构建基础模块,它可以自适应集成不同感受野的特征;此外,我们还采用了残差注意力模块,它包含通道注意力与空域注意力机制。因此所提方案能够以更轻量方式从通道与空域维度聚焦于潜在纹理。

本文通过充分的实验表明:所提WRAN具有计算高效性,同时取得了SOTA超分性能。本文的主要贡献包含以下几点:

  • 我们采用2D小波变换生成的四组系数作为输入,因此低频内容与高频细节可以在训练之前进行显式分离。这种处理方式有助于缓解训练难度且不会造成信息损失。
  • 我们采用多核卷积构建基础模块,它可以字使用进行不同感受野特征汇聚与集成;
  • 我们对残差注意力模块进行了探索并用于自适应特征提炼。

Method

Wavelet Transform

wavelet

上图给出了小波变换的示意图,小波变换会将输入图像变换为四组系数 [ A , V , H , D ] [A,V,H,D] [A,V,H,D]。本文采用Harr小波进行变换。

visual

上图给出了2D小波变换示意图,输入X将被分解为四个子带系数,它们分别对应低频、垂直、水平以及对角信息,每个子带的分辨率为输入的一半。此外需要注意的是:小波变换及其逆变换均可逆,不会造成信息损失。

Network Structure

framework

上图给出了本文所提网络架构示意图,它的输入 I b i c w ∈ R h 2 w 2 × 4 I_{bic}^w \in R^{\frac{h}{2} \frac{w}{2} \times 4} IbicwR2h2w×4bicubic图像 I b i c ∈ R h × w I_{bic} \in R^{h\times w} IbicRh×w经由小波变换处理后得到的四组系数。首先,我们采用卷积对其提取浅层特征:
F 0 = f e x t ( I b i c 2 ) = σ ( C ( I b i c w , 5 × 5 , c ) , α ) F_0 = f_{ext}(I_{bic}^2) = \sigma(C(I_{bic}^w,5\times5,c),\alpha) F0=fext(Ibic2)=σ(C(Ibicw,5×5,c),α)
由于小波变换特性,网络的输入包含负值,因此我们采用LeakyReLU激活函数。该网络的主体部分由L个带注意力机制的多核卷积模块构成,同时引入了局部跳过连接辅助信息流动,定义如下:
F i + l = H i + 1 ( i i ) = f s p a ( f c h n ( f c o n v ( F i ) ) ) + F i , i = 0 , 1 , ⋯ L − 1 F_{i+l}= H_{i+1}(i_i) = f_{spa}(f_{chn}(f_{conv}(F_i))) + F_i, i=0,1,\cdots L-1 Fi+l=Hi+1(ii)=fspa(fchn(fconv(Fi)))+Fi,i=0,1,L1
为克服梯度消失问题,我们将不同模块的输入进行拼接:
F c a t = [ F 1 , F 2 , ⋯   , F L ] F_{cat} = [F_1, F_2, \cdots, F_L] Fcat=[F1,F2,,FL]
在完成特征融合后,我们采用瓶颈结构进一步压缩特征,定义如下:
F w = C ( σ ( C ( F c a t , 3 × 3 , c ) , α ) , 3 × 3 , 4 ) F_{w} = C(\sigma(C(F_{cat}, 3\times 3, c),\alpha), 3\times3, 4) Fw=C(σ(C(Fcat,3×3,c),α),3×3,4)
需要注意:该网络的目标是重建残差图像的小波变换系数,,此时有:
I H R = i d W T ( F w ) + I b i c I_{HR} = idWT(F_w) + I_{bic} IHR=idWT(Fw)+Ibic

Multi-kernel Convolutional layer

上图为多核卷积结构,它受启发于Inception得到,它包含四个分支,每个分支具有不同的感受野: [ 1 , 3 , 5 , 7 ] [1,3,5,7] [1,3,5,7],每个卷积后接LeakyReLU激活函数。完成不同尺度特征提取后我们对其进行拼接并进行维度压缩。

Channel attention layer

layer-attention

上图为通道注意力模块,它与常规SE模块存在一些不同之处。SE采用全局均值池化提取平均特征,而这里不仅采用全局均支池化,同时还采用最大值池化。整个计算过程还是比较简单的,所以就先略过了。

Spatial attention

spatial-attention

上图给出本文所采用的空域注意力模块,类似上面的通道注意力,它同样采用联合均值池化与最大值池化。整体计算过程如下:
{ M m a x s = P ( F i n s , ′ m a x ′ , a x i s = 2 ) M a v g s = P ( F i n s , ′ a v g ′ , a x i s = 2 ) \begin{cases} M_{max}^s = P(F_{in}^s, 'max', axis=2) \\ M_{avg}^s = P(F_{in}^s, 'avg', axis=2) \end{cases} {Mmaxs=P(Fins,max,axis=2)Mavgs=P(Fins,avg,axis=2)
然后将上述两者拼接后送入 7 × 7 7\times 7 7×7卷积中计算注意力图,计算方式如下:
M s = s i g ( C ( [ M m a x s , M a v g s ] , 7 × 7 , 1 ) ) M^s = sig(C([M_{max}^s, M_{avg}^s], 7\times 7, 1)) Ms=sig(C([Mmaxs,Mavgs],7×7,1))
最后将上述所得注意力图与输入相乘得到增强后的特征:
F o u t s = M s ∘ F i n s F_{out}^s = M^s \circ F_{in}^s Fouts=MsFins
注:损失函数方面采用了常规的 L 1 L_1 L1损失。

Experiments

为验证所提方案的有效性,我们采用DIV2K数据进行模型训练,测试数据为Set5、Set14、B100以及Urban100。评价准则采用了最常用的PSNR与SSIM。

parameter

上图对比了模块数、通道数对于模型性能的影响对比。可以看到:

  • 提升模块数据可以显著提升模型的性能,当L>8时模型基本达到饱和;
  • 提升通道数量,模型的性能同样逐渐提升,但同时也导致更大的计算量、更多的参数量。为平衡模型大小与性能,我们默认通道数为64.

上图对比了激活函数的参数 α \alpha α与通道注意力模块中的下降因子r的性能影响对比。可以看到:

  • 当参数 α = 0.1 \alpha=0.1 α=0.1时,模型取得了最佳性能;
  • 当参数 r = 4 r=4 r=4时,模型取得了最佳性能。

上表对比了本文所提三个不同模块组合时的性能对比,很明显:

  • 注意力额外引入的参数量可以忽略不计;
  • 通道注意力与空域注意力均有助于提升模型性能;
  • 卷积+通道注意力+空域注意力的组合取得最佳模型性能。

上表对比了不同结构模块组合时的性能对比,可以看到:

  • A+H+V+D的组合取得最佳性能;
  • 多核卷积取得了最佳性能;
  • max+avg的注意力组合取得了最佳性能。

上表对比了所提方法与其他超分方案的性能对比,可以看到:RCAN与WRAN取得了最佳的性能;在小尺度超分任务上WRAN性能更佳;在大尺度超分上RCAN性能更佳。此外,附上X4超分任务下不同方案的视觉效果对比图。

推荐阅读

  1. Attention in Attention for Super-Resolution
  2. CMDSR | 为解决多退化盲图像超分问题,浙江大学&字节跳动提出了具有退化信息提取功能的CMDSR
  3. CVPR2021|超分性能不变,计算量降低50%,董超等人提出用于low-level加速的ClassSR
  4. CVPR2021 | 性能不变,计算量减少41%,国防科大提出加速图像超分高效推理的SMSR
  5. SANet|融合空域与通道注意力,南京大学提出置换注意力机制
  6. GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR
  7. RepVGG|让你的ConVNet一卷到底,plain网络首次超过80%top1精度
  8. Transformer再下一城!low-level多个任务榜首被占领
  9. 46FPS+1080Px2超分+手机NPU,arm提出一种基于重参数化思想的超高效图像超分方案
  10. CVPR2021|将无监督对比学习与超分相结合,国防科大提出了用于盲图像超分的无监督退化表达学习DASR
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIWalker-Happy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值