针对视频压缩的压缩感知超分算法:COMISR

WangsyUQ

已于 2022-06-06 22:24:35 修改

阅读量1.1k

点赞数

分类专栏：投稿文章视频超分(VSR) 文章标签：算法深度学习计算机视觉

于 2021-10-04 13:11:46 首次发布

本文链接：https://blog.csdn.net/Srhyme/article/details/120410483

版权

视频超分(VSR) 同时被 2 个专栏收录

54 篇文章 103 订阅

订阅专栏

投稿文章

41 篇文章 4 订阅

订阅专栏

在这里插入图片描述
作者单位：谷歌
论文链接：https://arxiv.org/pdf/2105.01237.pdf
编者言： 针对H.264等视频压缩标准压缩后的视频进行超分，定量和定性效果相比过去的VSR算法有较大提升，有一定的业界价值。

看点

VSR专注于从LR视频中恢复HR视频，在对高度压缩的输入视频进行超分时往往会产生严重的伪影。本文提出了一种压缩感知超分辨率模型(COMISR)，该模型可以在具有不同压缩级别的真实视频中表现良好。该模型由三个视频超分辨率模块组成:双向翘曲循环、细节保留的流估计和拉普拉斯增强。所有这三个模块都用于处理压缩特性，如输入帧内的位置和输出帧内的平滑度。
在这里插入图片描述

方法

Overview

COMISR采用循环设计，模型概述如下：
在这里插入图片描述

双向循环模块

在前向方向上，首先使用LR帧 $I^{LR}_{t-1}$ 和 $I^{LR}_{t}$ 估计LR流 $F^{LR}_{t-1→t}$ 和HR流 $F^{HR}_{t-1→t}$ 。在LR流中，使用 $F^{LR}_{t-1→t}$ 将LR帧 $I^{LR}_{t-1}$ 扭曲到t时刻的 $\tilde I^{LR}_{t}$ ；在HR流中，使用 $F^{HR}_{t-1→t}$ 将之前的预测帧 $\hat I^{HR}_{t-1}$ 扭曲成HR帧 $\tilde I^{HR}_{t}$ ，后有一个拉普拉斯增强模块，以生成准确的HR扭曲帧： $\tilde{I}_{t}^{H R}=Laplacian\left(\tilde{I}_{t}^{H R, W a r p}\right)+\tilde{I}_{t}^{H R, W a r p}$ 然后对 $\tilde{I}_{t}^{H R}$ 进行space-to-depth操作，降低分辨率的同时扩充通道数，将其与 $I^{LR}_t$ concat一起数去进HR帧生成器去获得最终的HR预测 $\hat I^{HR}_{t}$ 。同样地，在反方向上使用对称操作来获得扭曲的LR帧和预测的HR帧。在这种情况下，细节感知流估计模块生成从t到t−1的反向流，通过将反向流应用于t帧去估计t−1帧来实现扭曲。

细节感知流估计

首先连接两个相邻的LR帧 $I^{LR}_{t-1}$ 和 $I^{LR}_{t}$ ，并将其输入LR流量估计网络生成LR流 $F^{LR}_{t-1→t}$ 。与直接上采样LR流不同，本文在双线性上采样LR流上添加了一些额外的反卷积层。在训练中学习详细的残差图，从而更好地保留预测的HR流中的高频细节。下图为具体的网络架构：
在这里插入图片描述

拉普拉斯增强模块

拉普拉斯残差在寻找视频帧的细节时特别有用，在视频压缩期间这些细节可以被平滑。在COMISR中，扭曲的预测HR帧从之前帧的学习中保留了一些信息和细节。这样的细节很容易在上采样过程中丢失。为此，我们将拉普拉斯残差添加到预测的HR帧中，以增强细节。利用一个宽为 $\sigma$ 的高斯核模糊G(·,·)来计算拉普拉斯增强图像： $\tilde{I}_{t}^{H R}=\tilde{I}_{t}^{H R}+\alpha\left(\tilde{I}_{t}^{H R}-G\left(\tilde{I}_{t}^{H R}, \sigma=1.5\right)\right)$ 下图显示了使用拉普拉斯图像增强细节的对比。其中红色框和绿色框中的patch，可以清楚地看到细节纹理被锐化了。
在这里插入图片描述
通过利用拉普拉斯算子，我们将细节添加回扭曲的HR帧中。接下来是space-to-depth操作，它将空间数据块重新排列，然后与LR输入帧concat。我们将其通过HR帧生成器生成最终的HR预测。

损失

在训练期间，损耗的设计考虑了HR流和LR流。对于HR帧的损失，计算最终输出与HR帧之间的 $\mathcal L_2$ 距离，如下： $\mathcal{L}_{\text {content }}^{H R}=\frac{1}{2 N}(\underbrace{\sum_{t=1}^{N}\left\|I_{t}^{H R}-\hat{I}_{t}^{H R}\right\|_{2}}_{\text {forward }}+\underbrace{\sum_{t=N}^{1}\left\|I_{t}^{H R}-\hat{I}_{t}^{H R}\right\|_{2}}_{\text {backward }})$ 每个从t-1被扭曲到t时刻的LR帧也使用 $\mathcal L_2$ 距离来计算损失： $\mathcal{L}_{\text {warp }}^{L R}=\frac{1}{2 N}(\underbrace{\sum_{t=1}^{N}\left\|I_{t}^{L R}-\tilde{I}_{t-1}^{\text {Warp }}\right\|_{2}}_{\text {forward }}+\underbrace{\sum_{t=N}^{1}\left\|I_{t}^{L R}-\tilde{I}_{t-1}^{W a r p}\right\|_{2}}_{\text {backward }})$ 总损失是上述两个损失的加权和。

实验

消融实验

a表示双向模块，b表示细节感知流估计，c表示拉普拉斯增强模块
在这里插入图片描述

定量评估

不同固定码率系数在VID4测试集上的比较，COMISR更倾向于于处理压缩严重的图像
在这里插入图片描述
使用LPIPS度量进行性能评估(越低越好)，在REDS测试集上表现良好

定性评估

在VID4测试集上的定性评估，原VSR方法生成的伪影较为严重
在这里插入图片描述

WangsyUQ

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
针对视频压缩的压缩感知超分算法:COMISR

作者单位：谷歌论文链接：https://arxiv.org/pdf/2105.01237.pdf编者言：针对H.264等视频压缩标准压缩后的视频进行超分，定量和定性效果相比过去的VSR算法有较大提升，有一定的业界价值。VSR专注于从LR视频中恢复HR视频，在对高度压缩的输入视频进行超分时往往会产生严重的伪影。本文提出了一种压缩感知超分辨率模型(COMISR)，该模型可以在具有不同压缩级别的真实视频中表现良好。该模型由三个视频超分辨率模块组成:双向翘曲循环、细节保留的流估计和拉普拉斯增强。所有这三个模块
复制链接

扫一扫

专栏目录