Scale-recurrent Network for Deep Image Deblurring

最新推荐文章于 2025-03-26 14:35:16 发布

王剑强

最新推荐文章于 2025-03-26 14:35:16 发布

阅读量3.4k

点赞数 2

本文链接：https://blog.csdn.net/weixin_42286355/article/details/80602953

版权

 
 摘要： 

在单张图片去模糊中，从粗糙到细致的模式例如在一个不同尺度的金字塔结构中，逐渐复原清晰图像在传统的基于优化的算法和最近的基于神经网络的方法中都非常成功。在本文中，我们研究了这种策略并且针对这种去模糊任务提出了一个尺度递归网络（SRN-DeblurNet）。相比较于文献[25]中的许多最近的基于学习的方法，它有一个更简单的网络结构，更少的参数，而且更加容易训练。我们在有复杂运动的大尺度去模糊数据集上评价了我们的算法。结果显示我们的方法在质量和数量上都能比目前的最优方法产生更好的质量结果。

 
 1.介绍： 

 
 对于去模糊问题，coarse to fine的模式是一个很好的方法，主要就是多尺度。针对多尺度，本文提出的尺度循环网络（SRN）在两个方面进行了创新。 

 
 Scale-recurrent Structure 

 
 在多尺度模型里，每一尺度的网络结构和任务都相似，但是各尺度的参数仍然是相互独立的。本文提出的在不同尺度之间共享网络权重可以减少网络参数、使模型的学习能力更加稳固。 

 
 编解码残差网络结构 

 
 编解码器的结构在CV任务中非常有用，与残差网络相结合可以结合两者优势，还能扩大感受野，对于捕捉运动模糊很重要。本文设计的网络训练收敛快、参数少、去模糊效果好，超过了当前的最好水平。 

 
 2.相关工作： 

 
 利用图像的各种先验知识；带跳跃连接的自编码器。 

 
 U-net(编解码器网络)。多尺度网络。 

 
 3.网络结构: 

3.1 SRN

  在每一个尺度上，以两张图像作为输入，一张模糊图像，一张上采样后的去模糊图像。同时还在中间输入了隐藏状态的特征。 

  循环网络用ConvLSTM.它能在利用时间相关性的同时利用空间相关性。 

  不同尺度之间对图像和feature的上采样都使用双线性插值（bilinear interpolation），因为简单有效。 

 
 3.2用残差网络构造的编解码器 

  编解码器用对称的结构先把输入数据编成小尺寸、多通道的特征图，然后把特征图解码成与与输入相同shape的输出。跳跃连接（skip-connection）在编解码器中广泛用来连接不同level的特征，有利于梯度传播与加速收敛。一般，编码器包括几级步长不为1的卷积，解码器包括几级解卷积或resize。 

  然而直接使用简单的编解码器有以下缺点：层数少导致感受野小，若层数过多又会导致特征图尺寸过小而不能充分保留空间信息，且层数过多还会增加参数，使网络难以收敛。 

  本文将残差模块用于编解码器，所有残差块没有BN层。在每一个编码残差块（EBlocks）中,先通过步长为2的卷积，将尺寸缩小一半，同时将特征维度增加一倍。然后通过若干个残差网络，每个残差网络包含两层卷积。在每一个解码模块（DBlocks）中，结构与编码模块（EBlocks）对称，即若干个残差网络和一个解卷积层（deconvolution），将尺寸增加一倍，特征维度减少一半。 

  隐藏层隐藏状态包含了有用的信息 

  对每一个尺度，可以依次分成几部分：InBlocks 2*EBlocks ConvLSTMBlocks 2*Dblocks OutBlocks;InBlocks产生32通道特征，两个EBlocks分别产生64，128通道，DBlocks和OutBlocks与前面对称。 

  每一层卷积后都用ReLU层激活，所有核的尺寸都为5. 

 
 3.3损失函数 

  多尺度MSE损失： 

  权重相同。 

  同时还尝试了total variation loss核adversarial loss 

  4.实验 

  数据与 
 Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 
  这篇论文相同。 

 
 训练时每次选取16张图片，在每张图片上随机截取256*256的patches.