针对视频压缩的压缩感知超分算法:COMISR

在这里插入图片描述
作者单位:谷歌
论文链接:https://arxiv.org/pdf/2105.01237.pdf
编者言: 针对H.264等视频压缩标准压缩后的视频进行超分,定量和定性效果相比过去的VSR算法有较大提升,有一定的业界价值。

看点

VSR专注于从LR视频中恢复HR视频,在对高度压缩的输入视频进行超分时往往会产生严重的伪影。本文提出了一种压缩感知超分辨率模型(COMISR),该模型可以在具有不同压缩级别的真实视频中表现良好。该模型由三个视频超分辨率模块组成:双向翘曲循环、细节保留的流估计和拉普拉斯增强。所有这三个模块都用于处理压缩特性,如输入帧内的位置和输出帧内的平滑度。
在这里插入图片描述

方法

Overview

COMISR采用循环设计,模型概述如下:
在这里插入图片描述

双向循环模块

在前向方向上,首先使用LR帧 I t − 1 L R I^{LR}_{t-1} It1LR I t L R I^{LR}_{t} ItLR估计LR流 F t − 1 → t L R F^{LR}_{t-1→t} Ft1tLR和HR流 F t − 1 → t H R F^{HR}_{t-1→t} Ft1tHR。在LR流中,使用 F t − 1 → t L R F^{LR}_{t-1→t} Ft1tLR将LR帧 I t − 1 L R I^{LR}_{t-1} It1LR扭曲到t时刻的 I ~ t L R \tilde I^{LR}_{t} I~tLR;在HR流中,使用 F t − 1 → t H R F^{HR}_{t-1→t} Ft1tHR将之前的预测帧 I ^ t − 1 H R \hat I^{HR}_{t-1} I^t1HR扭曲成HR帧 I ~ t H R \tilde I^{HR}_{t} I~tHR,后有一个拉普拉斯增强模块,以生成准确的HR扭曲帧: I ~ t H R = L a p l a c i a n ( I ~ t H R , W a r p ) + I ~ t H R , W a r p \tilde{I}_{t}^{H R}=Laplacian\left(\tilde{I}_{t}^{H R, W a r p}\right)+\tilde{I}_{t}^{H R, W a r p} I~tHR=Laplacian(I~tHR,Warp)+I~tHR,Warp然后对 I ~ t H R \tilde{I}_{t}^{H R} I~tHR进行space-to-depth操作,降低分辨率的同时扩充通道数,将其与 I t L R I^{LR}_t ItLRconcat一起数去进HR帧生成器去获得最终的HR预测 I ^ t H R \hat I^{HR}_{t} I^tHR。同样地,在反方向上使用对称操作来获得扭曲的LR帧和预测的HR帧。在这种情况下,细节感知流估计模块生成从t到t−1的反向流,通过将反向流应用于t帧去估计t−1帧来实现扭曲。

细节感知流估计

首先连接两个相邻的LR帧 I t − 1 L R I^{LR}_{t-1} It1LR I t L R I^{LR}_{t} ItLR,并将其输入LR流量估计网络生成LR流 F t − 1 → t L R F^{LR}_{t-1→t} Ft1tLR。与直接上采样LR流不同,本文在双线性上采样LR流上添加了一些额外的反卷积层。在训练中学习详细的残差图,从而更好地保留预测的HR流中的高频细节。下图为具体的网络架构:
在这里插入图片描述

拉普拉斯增强模块

拉普拉斯残差在寻找视频帧的细节时特别有用,在视频压缩期间这些细节可以被平滑。在COMISR中,扭曲的预测HR帧从之前帧的学习中保留了一些信息和细节。这样的细节很容易在上采样过程中丢失。为此,我们将拉普拉斯残差添加到预测的HR帧中,以增强细节。利用一个宽为 σ \sigma σ的高斯核模糊G(·,·)来计算拉普拉斯增强图像: I ~ t H R = I ~ t H R + α ( I ~ t H R − G ( I ~ t H R , σ = 1.5 ) ) \tilde{I}_{t}^{H R}=\tilde{I}_{t}^{H R}+\alpha\left(\tilde{I}_{t}^{H R}-G\left(\tilde{I}_{t}^{H R}, \sigma=1.5\right)\right) I~tHR=I~tHR+α(I~tHRG(I~tHR,σ=1.5))下图显示了使用拉普拉斯图像增强细节的对比。其中红色框和绿色框中的patch,可以清楚地看到细节纹理被锐化了。
在这里插入图片描述
通过利用拉普拉斯算子,我们将细节添加回扭曲的HR帧中。接下来是space-to-depth操作,它将空间数据块重新排列,然后与LR输入帧concat。我们将其通过HR帧生成器生成最终的HR预测。

损失

在训练期间,损耗的设计考虑了HR流和LR流。对于HR帧的损失,计算最终输出与HR帧之间的 L 2 \mathcal L_2 L2距离,如下: L content  H R = 1 2 N ( ∑ t = 1 N ∥ I t H R − I ^ t H R ∥ 2 ⏟ forward  + ∑ t = N 1 ∥ I t H R − I ^ t H R ∥ 2 ⏟ backward  ) \mathcal{L}_{\text {content }}^{H R}=\frac{1}{2 N}(\underbrace{\sum_{t=1}^{N}\left\|I_{t}^{H R}-\hat{I}_{t}^{H R}\right\|_{2}}_{\text {forward }}+\underbrace{\sum_{t=N}^{1}\left\|I_{t}^{H R}-\hat{I}_{t}^{H R}\right\|_{2}}_{\text {backward }}) Lcontent HR=2N1(forward  t=1NItHRI^tHR2+backward  t=N1ItHRI^tHR2)每个从t-1被扭曲到t时刻的LR帧也使用 L 2 \mathcal L_2 L2距离来计算损失: L warp  L R = 1 2 N ( ∑ t = 1 N ∥ I t L R − I ~ t − 1 Warp  ∥ 2 ⏟ forward  + ∑ t = N 1 ∥ I t L R − I ~ t − 1 W a r p ∥ 2 ⏟ backward  ) \mathcal{L}_{\text {warp }}^{L R}=\frac{1}{2 N}(\underbrace{\sum_{t=1}^{N}\left\|I_{t}^{L R}-\tilde{I}_{t-1}^{\text {Warp }}\right\|_{2}}_{\text {forward }}+\underbrace{\sum_{t=N}^{1}\left\|I_{t}^{L R}-\tilde{I}_{t-1}^{W a r p}\right\|_{2}}_{\text {backward }}) Lwarp LR=2N1(forward  t=1NItLRI~t1Warp 2+backward  t=N1ItLRI~t1Warp2)总损失是上述两个损失的加权和。

实验

消融实验

a表示双向模块,b表示细节感知流估计,c表示拉普拉斯增强模块
在这里插入图片描述

定量评估

不同固定码率系数在VID4测试集上的比较,COMISR更倾向于于处理压缩严重的图像
在这里插入图片描述
使用LPIPS度量进行性能评估(越低越好),在REDS测试集上表现良好
在这里插入图片描述

定性评估

在VID4测试集上的定性评估,原VSR方法生成的伪影较为严重
在这里插入图片描述

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值