论文精读-ReMoNet: Recurrent Multi-Output Network for Efficient Video Denoising

论文精读-ReMoNet: Recurrent Multi-Output Network for Efficient Video Denoising

优势

  1. 多输入多输出(MIMO)范式:ReMoNet提出了一种新颖的架构,可以在一次前向传播中处理连续的视频帧。这种方法利用了视频帧之间通常具有的时间一致性,通过减少重复计算来提高效率。
  2. 循环时序融合和多输出聚合块:相比传统的单帧处理模型,由于其使用了多帧输入输出,在减少计算量的同时,也增加了模型的考验。ReMoNet通过RTF提取潜在的特征帧(隐藏帧Zt),并通过MOA聚合相邻时间信息。
  3. 基于相似性的相互蒸馏:ReMoNet类似使用知识蒸馏的方法,通过同伴学习到的知识进一步增强了网络的性能。

方法

概述

在这里插入图片描述

1)应用单帧图像去噪算法,不使用任何时间信息yi=f(xi)。这属于传统的视频去噪方法,其通常将图像去噪方法推广到其视频处理对应部分。e.g.VBM4D

2)使用显式的时间建模。yi = f(wi(xi−T),…, xi,…, wi(xi+T))))

3)使用隐式时间建模。 yi = f(xi−T,…, xi+T)

其中,wi(xj)使用显式运动估计(如光流)去噪从第j帧到第i帧的扭曲,f表示深度神经网络参数化的去噪函数。

第3点区别第2点在于没有使用显示建模中的流量估计wi

而2、3点实际是利用时间相干性和帧间关系即视频中的时间一致性,这是与第1点的明显区别。

本文提出了一种新的方法,其为多输入多输出结构,简单来说就是同时处理多帧数据。同时,结合RTF与MOA结构,相似性互蒸馏训练策略,提高了整体性能。

动机与观察

1、连续视频帧通常共享相似的内容,并包含视觉冗余 (我们可以在中间压缩一部分帧数据,减少计算量的同时,也不会影响性能 => RTF+MOA

2、神经网络通常是过度参数化的。当超过70%的参数被修剪时,神经网络甚至可以保持其性能 (很多网络是不需要那么复杂的,我们可以使用当前网络处理更多的数据,类似做模型与数据的正则化。 => MIMO+基于相似性的相互蒸馏

3、在视频编码等其他视频应用中,通常在输入空间中进行冗余减少,其中连续的相似帧被压缩为(或预测为)一个代表性帧(Sousa 2000;Wiegand et al. 2003)。然而,这并不适用于我们的像素到像素去噪任务。(直接减少输入是不好的,我们使用多输入多输出MIMO

基于观察提出通过多输入多输出策略来减少输出空间中的冗余计算。多输入多输出(MIMO)公式:

image-20240901164821959

核心思想是:利用神经网络中的过度参数化,并在一次前向传递中处理连续帧,则可以大大减少对这些冗余视觉内容的计算。

利用2T+1时间输入的去噪网络(改变最后一卷积层的通道数量)可以在一次前向传播中对2T+1帧的数据进行降噪,所以理论上性能提升2T+1倍。

但这存在一个问题,网络是否有足够的容量处理这么多信息?->通过实验判断;最终选择的是2T+1=5,2K+1=3。

模型

image-20240901194157431

循环时间融合RTF
image-20240901194640055

用于提取潜在的特征帧。其具有轻量级的微型UNet结构

1)快时间融合

沿着信道维度将所有输入帧连接在一起,所以时间信息在第一层之后不存在

2)慢时间融合

将2K + 1帧合并成小于输入帧数2T + 1的组,并沿着时间轴逐渐融合。

效果:慢时间融合>快时间融合

在此基础上,本文提出了周期性融合策略。除了逐渐融合滑动窗口大小2K+1的时间信息外,我们还使用简单的循环结构来跟踪时间视觉关系。 (滑动窗口显而易见。而循环结构实际就是对应的轻量级unet网络,其包含上下采样,同一信息会被重复使用)

从结果来说,每个step是以2K+1帧作为输入,并输出2K+1的 “隐藏帧Zt” R(2K+1)CxHxW (隐藏帧Zt,每个z都是由时间核大小2K+1产生的,它小于整个序列长度2T+1)

实验观察到,MIMO风格的递归时间融合将有利于恢复。与非mimo RTF块相比,RTF- mimo隐含地学习了更多样化的信息。

多输出聚合MOA

用于聚合相邻的时间信息。

image-20240901163257352

yi∈RCxHxW。它取多个zi∈R(2K+1)×H×W, i∈[t−t, t + t]作为输入,输出[yt−t,…, yt+T]

通过RTF作为快速提取,和MOA聚合信息,带来了两个好处:

1、通过每个step处理2T+1时间帧数据,很大程度加快了处理速度;=>MIMO与RTF的优点

2、提高了去噪性能,因为每个隐藏帧Zt中的局部融合的时间信息被聚合和细化。=>MOA的优点

基于相似性的互蒸馏训练

类似知识蒸馏,教师-学生模型。区别在于,这个是相互之间蒸馏而非单向。

动机:希望充分利用网络容量,让它们吸收更多的信息。基于相似性的相互蒸馏提供了一个额外的监督信号,迫使网络不仅要从基础事实中学习,还要从它们的同伴中学习。(其主要体现在loss函数中)
在这里插入图片描述

其中||·||F是Frobenius范数,范数表示逐行L2归一化,gi表示每个mini-batch内帧之间的视觉相似性图。直观地说,由于神经网络的训练轨迹是随机的,每个学生网络可能学习到不同的信息,并且相互补充。

image-20240901165453498

其中LMSE表示ReMoNet的输出yi与ground-truth帧gt之间的均方误差。在测试期间,我们随机选择一个ReMoNet进行推理,这不会带来额外的计算成本。

实验

训练集:DAVIS-train

测试集:set8、DAVIS-test

加入的噪声:1、高斯噪声(AWGN)2、模拟ISP处理噪声

RTF中输入帧为5(即T=2),隐藏帧为3(即K=1)。隐藏维数dim=32。

实验结果

1、总体效果。 计算量、PSNR与最佳模型对比:

image-20240901194111780

2、量化效果。 噪声水平越高,ReMoNet得到的改进越大,证明了其在复杂的现实世界噪声分布具有很好的泛化能力,而且在高水平噪声损坏下具有更强的鲁棒性。

image-20240901195938766

3、高斯噪声效果。 考虑高斯噪声,噪声级σ= 40的GOPRO单板上的结果。结果表明,ReMoNet产生的结果比基线更干净、更自然。放大可以获得更好的视角。

image-20240901195341564

大多数方法仍然会产生不相干的天空,其中一些天空充满了严重的噪声。而Re-MoNet能够还原一个清晰而连贯的天空,这更加自然。

4、ISP模型噪声效果。 模拟ISP噪声的Derf拖拉机试验结果,噪声水平σ= 0.05。我们观察到,在真实的噪声分布下,ReMoNet恢复的细节比基线方法更清晰(见黄色边界框)。放大可以获得更好的视图。

image-20240901195434996

从牵引结果中,我们观察到只有ReMoNet清楚地回收了蓝色机械装置中的两个黑色成分。所有基线方法都无法恢复轮胎的复杂纹理,而ReMoNet恢复的纹理更接近原始的ground-truth(左侧的黄色边界框)。

5、速度。 在高通骁龙888移动平台上进行,其GPU用于推理。输入分辨率为360 ×640。结果表明,FastDVDNet处理一帧需要927ms。同时,ReMoNet处理5帧只需要446ms,即每帧89.2ms,比FastDVDNet快11倍。

QA

相似性的相互蒸馏加强? 利用同伴的知识相互进步。

Non-Local Net搜索相似的相邻图像补丁进行训练?

时间核,3D卷积?

在深度学习中,3D卷积(三维卷积)是一种常用的时间核,它能够处理具有时间维度的数据,如视频。3D卷积核在三个维度(宽度、高度、时间)上进行滑动,以捕捉空间和时间上的特征。

深度相互学习?GAN 判别器和生成器?

类似,但不完全。主要体现在相似性的相互蒸馏。

逐行L2归一化?

确保每个样本在空间中具有相同的尺度,从而使得算法更加公平地对待每个特征。

image-20240901202331568
  • 22
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

看不见的罗辑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值