基于循环反投影网络(RBPN)的视频超分辨笔记

RBPN是一种视频超分辨率方法,通过循环Encoder-Decoder机制改进传统运动估计。它扩展了DBPN,利用投影模块在不同时间帧间交换信息,解决了序列模型中信息损失的问题。网络结构包含初始特征提取、多投影和重建,能够在处理序列图像时保持良好的一致性。
摘要由CSDN通过智能技术生成

Recurrent Back-Projection Network for Video Super-Resolution

作者:Muhammad Haris, Greg Shakhnarovich, and Norimichi Ukita

作者提出:

  • 流行的MISR或者VSR方法一般都是基于准确的运动估计和运动补偿(alignment),这个模式受到运动估计准确度的约束。RBPN希望改进这个模式。
  • 另外,在绝大多数基于CNN的方法中(包括作者之前提出的DBPN),实际上都对图像做了concat以及1*1卷积的操作,或者直接把图片输入到RNN中。concat的方法导致多张图片被同步地处理,增加了训练网络的难度。RNN中,同时处理细微和明显的变化(比如同一图片中运动剧烈和缓慢的物体)是比较困难的。
  • DBPN中的不停向后传递的residual,实际上能比较好地应对RNN中对subtle 和 significant changes乏力的问题。
  • 应用了循环Encoder-Decoder机制,用于通过反投影合并在SISR和MISR路径中提取的细节。RBPN中的这种机制扩大了RNN中的时间gap(t,t-1),使得时间跨度更大的帧也能被姣好地利用。

compare

其实作者这样一说我就很好奇了。因为正如他所说,只要是提到了VSR + 运动估计的文献,几乎无一例外都要借助于一个精细的运动估计网络或者方法进行运动估计和运动补偿,但是效果一般有限,而且经过一些实验(比如之前的OFRNet,专门推算高分光流)表明,即使PSNR得到了一定的提升,但是这样的运动估计和运动补偿实在太容易引入伪影和帧间的不一致了。对比frame recurrent (FRVSR)和 OFRNet 网络,FRVSR的一致性非常好,这应该得益于循环利用高分帧的机制。而OFRNet相邻帧间的一致性较差,作为视频播放时(25fps)可见雪花状伪影。
另外,由于对RNN了解很少,要想理解RBPN不得不查阅相关资料


Encoder-Decoder模型

序列-序列的任务,经常采用Encoder-Decoder模型解决。参考基于Encoder-Decoder模式的机器翻译模型原理及实现
为了解决seq2seq问题,有人提出了encoder-decoder模型,也就是编码-解码模型。所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。

encoder-decoder模型虽然非常经典,但是局限性也非常大。最大的局限性就在于编码和解码之间的唯一联系就是一个固定长度的语义向量C。也就是说,编码器要将整个序列的信息压缩进一个固定长度的向量中去。但是这样做有两个弊端,一是语义向量无法完全表示整个序列的信息,还有就是先输入的内容携带的信息会被后输入的信息稀释掉,或者说,被覆盖了。输入序列越长,这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息, 那么解码的准确度自然也就要打个折扣了


网络结构

architecture

RBPN整体主要分为三个部分:初试特征提取、多投影和重建。

  1. 初始特征提取

    • MISR path:将第 I t I_t It I t − k I_{t-k} Itk帧以及其光流 F t − k F_{t-k} Ftk concat后,进行卷积得到8通道的特征张量 M t − k M_{t-k} Mtk
    • SISR path:第t帧 I t I_t It直接进行卷积得到特征张量 L t L_t Lt.
  2. 多投影

    • 通过projection module,将第k个M张量与第k-1个L张量进行投影,并输出第k个L张量和第k个高分特征H张量

    • 第k个张量再一次输入到projection module中(作者提到:“The projection module, shared across time frames,”),然后结合第k+1个M张量,生成L和H。
      projection module

    • Encoder:SISR和MISR两支路的特征输入到Encoder后,经由上采样得到高分的特征张量 H t − n m H_{t-n}^m Htnm H t − n − 1 l H_{t-n-1}^l H

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
滤波反投影(Filtered Back Projection,FBP)是一种常用的图像重建算法,广泛应用于医学影像、非破坏检测、地质勘探等领域。在电磁感应中,FBP也被用于重建金属管道或容器内部的导电物体的形状和位置。 电磁感应是指利用电磁学原理,通过感应电磁场中的变化来探测物体内部的导电物体。在电磁感应成像中,首先需要通过传感器获取物体内部的电磁场分布,然后根据电磁场分布重建物体内部的导电物体分布。 FBP的基本思路是将传感器测量到的数据进行傅里叶变换,得到物体的频谱信息。然后,将频谱信息进行滤波处理,将高频成分滤除,以降低噪声的影响。最后,将滤波后的频谱信息进行反傅里叶变换,得到物体的空间分布信息,即可重建物体的形状和位置。 在电磁感应中,传感器可以放置在物体的外部,通过感应电磁场的变化来探测物体内部的导电物体。传感器可以采用各种类型的电磁场传感器,如磁场传感器、电场传感器、感应线圈等。当导电物体通过传感器所在位置时,会影响传感器测量到的电磁场分布,从而可以重建出物体的形状和位置。 电磁感应成像技术在工业领域有着广泛的应用,如在石油行业中用于探测地下储层中的油气分布,以及在制造业中用于检测金属管道或容器内部的缺陷或异物。FBP作为一种常用的图像重建算法,为电磁感应成像提供了可靠的重建方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值