视频超分:iSeeBetter( Spatio-temporal video super-resolution using recurrent generative back-projecti...)

在这里插入图片描述

论文:iSeeBetter:使用递归生成反投影网络的时空视频超分
文章检索出处: 2020 arXiv
读后感:本文模型使用RBPN作为生成器,SRGAN的判别器作为判别器。使用了四个损失函数。有关RBPN模型的内容详见之前的文章:视频超分:RBPN(Recurrent Back-Projection Network for Video Super-Resolution)

摘要和简介

本文提出一种基于GAN的视频超分方法—iSeeBetter。创新点如下:

  1. 结合SOTR方法:RBPN+SRGAN。RBPN可以更好的从邻近帧中提取细节,SRGAN可以生成更真实和吸引人的帧,同时消除传统算法的伪影。
  2. 优化损失函数:采用了四个损失函数(MSE,感知,对抗,全变差(TV))来获得更好的结果
  3. 扩展评价方案:Vid4和SPMCS缺乏重要的运动序列,故我们添加Viemo90K—一个包含各种运动的数据集,去进行更加全面的评估。此外,数据集扩充为170,000个片段。
  4. 用户友好的架构:在训练好的模型上运行预定义的基准序列。此外,模型可以直接将视频作为输入,而不是帧序列。代码已在github上开源:https://iseebetter.amanchadha.com/

模型

数据集

使用双三次插值进4倍下采样,训练/验证/测试分别为80%/10%/10%。数据集摘要如下图:
在这里插入图片描述

网络架构

输入 L R t LR_t LRt帧、相邻帧和光流的输出帧,RBPN作为一个生成器负责生成 S R t SR_t SRt帧。然后将生成的 S R t SR_t SRt馈入到SRGAN鉴别器网络中去验证真实性。
在这里插入图片描述

损失函数
  1. MSE损失:MSE损失也称内容损失,其中 G θ G G_{\theta G} GθG( L R t LR_t LRt)代表的是 S R t SR_t SRt

在这里插入图片描述

  1. 感知损失:依赖于从VGG-19模型中提取特征,感知损失定义为SR特征和真实帧特征的欧氏距离。它更侧重于感知相似度而不是像素空间的相似度。

在这里插入图片描述
其中 V G G i , j VGG_{i,j} VGGi,j表示第 i t h i^{th} ith个池化层之前 j t h j^{th} jth卷积(激活后)的特征图。
3. 对抗损失: 我们最小化 − l o g ( D θ D ( G θ G ( L R t ) ) ) -log(D_{\theta D}(G_{\theta G}(LR_{t}))) log(DθD(GθG(LRt)))而不是 l o g ( 1 − D θ D ( G θ G ( L R t ) ) ) log(1-D_{\theta D}(G_{\theta G}(LR_{t}))) log(1DθD(GθG(LRt)))去获得更好的梯度行为。

在这里插入图片描述
4. 全变差损失(TV): 定义为相邻像素在水平和垂直方向的绝对差之和。由于TV测量输入的噪声,将它最小化作为我们整体损失的一部分,可以帮助去噪输出的SR图像,从而使空间平滑。定义如下。

在这里插入图片描述
生成器的损失如下。在这里插入图片描述
其中 α , β , γ , δ \alpha,\beta,\gamma,\delta α,β,γ,δ的权重为1,6 x 1 0 − 3 10^{-3} 103 1 0 − 3 10^{-3} 103,2 x 1 0 − 8 10^{-8} 108。鉴别器的损失如下。

在这里插入图片描述
总的损失为:
在这里插入图片描述


实验评估

消融实验,验证本文架构的正确性:
在这里插入图片描述
不同模型的量化评估:
在这里插入图片描述
细节图对比:在这里插入图片描述
仅供学习使用,请勿转载。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值