ICCV2021 | 视频缩放任务中的自条件概率学习

本文链接：https://blog.csdn.net/Srhyme/article/details/120342095

本文提出了一种名为SelfC的自条件概率框架，用于视频缩放任务，同时考虑了视频压缩和动作识别。SelfC利用LR视频中的时空先验信息，通过非微分有损编解码器的梯度估计方法实现端到端训练。在降采样过程中，高频信息被建模为基于低频分量的多模态概率分布，并通过STP-Net进行估计。实验表明，SelfC在视频压缩和恢复质量上优于传统方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

作者单位：上交、北理、百度
论文链接：https://arxiv.org/pdf/2107.11639.pdf
编者言： 本文将视频缩放任务与视频压缩任务和视频动作识别任务联系起来，将模型中不可微分的模块通过辅助DNN训练求梯度的方法来进行模型的训练，相比H.265实现了较好的压缩率和恢复效果。

看点

本文提出了一个视频缩放的自条件概率框架（SelfC），以同时学习成对缩放过程。在训练时，在LR视频中有强时空先验信息的条件下，通过最大化降采样丢失信息的概率来减少丢失的信息熵。该方法利用LR视频中丰富的时间信息，通过引入指定的局部和全局时间聚合模块，精确估计分布参数。此外，本文进一步将该框架扩展到有损视频压缩系统，提出了一种基于控制变量法和Monte Carlo采样技术的非微分有损编解码器的梯度估计方法，用于整个系统的端到端训练。

方法

SelfC框架的如下图(a)所示，其中使用取整运算作为量化模块，并以H.265无损格式存储输出的LR视频。量化模块的梯度由直通估计器（STE）计算。
在这里插入图片描述

在降采样过程中，频率分析器(FA)首先将HR视频转换为视频特征 $f$ ，其中前3个通道为低频分量 $f_l$ ，后 $3·k^2$ 个通道为高频分量 $f_h$ ， $k$ 为采样系数。然后， $f_l$ 被量化为LR视频 $x_l$ 进行存储， $f_h$ 在这个过程中被丢弃。在上采样过程中，时空先验网络(STP-Net)预测高频分量 $f_h$ 的概率密度函数： $p(f_h|x_l)=\mathsf{STP-Net}(x_l)$ 将 $p(f_h|x_l)$ 建模为连续高斯分布的参数矩阵，然后从分布中提取高频分量 $\hat f_h$ 。最后利用频率合成器(FS)将级联的 $\hat f_h$ 和 $x_l$ 重构出HR视频。

频率分析器和合成器

如上图(b)所示，首先将HR视频 $x$ 分解为低频组件 $c_l=Down(x)$ 和高频残差组件 $c_h=\mathsf {PixelUnshuffle}(x-\mathsf{Up}(c_l))$ ，然后用一个可学习的操作 $\mathcal T$ 将级联的 $c_l$ 和 $c_h$ 转换为输出特征 $f$ 。 $\mathcal T$ 的网络架构是非常灵活的，在此使用多个堆叠的Dense2D-T块实现它，Dense2D-T的结构在上图右侧。Dense2D-T块由Dense2D块修改而来，用时间卷积替换最后的空间卷积。频率合成器的结构与分析器是对称的，如上图 $(c)$ 所示。

自条件概率模型

由于量化模块使用取整运算，导致其梯度不平滑，直接使用梯度下降优化 $p(f_h|x_l)$ 是不稳定的。为此选择优化 $p(f_h|f_l)$ 。具体的说，将高频分量 $f_h$ 表示为基于低频分量 $f_l$ 的连续多模态概率分布，公式为： $p(f_h|f_l)=\prod_{o}p(f_h(o)|f_l)$ 其中 $o$ 表示时空位置。使用组件数量K=5的连续高斯混合模型(GMM)来近似 $p$ ，其分布由可学习的混合权重 $w_o^k$ ，平均值 $\mu^k_o$ 和对数方差 $\sigma^k_o$ 定义。分布可以精确的定义为： $p\left(f_{h}(o) \mid f_{l}\right)=\sum_{k=1}^{K} w_{o}^{k} p_{g}\left(f_{h}(o) \mid \mu_{o}^{k}, e^{\sigma_{o}^{k}}\right)$ 其中 $p_{g}\left(f \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{\pi} \sigma} e^{-\frac{(f-\mu)^{2}}{\sigma^{2}}}$

STP-Net

如(d)所示，为了估计上述分布的参数，提出STP-Net来对缩小后的视频中的局部和全局时间信息进行建模。首先利用Dense2D-T块提取每个输入帧的短期时空特征。在这一阶段，只将前一帧或下一帧的信息聚合到当前帧中，而忽略视频中的长时间依赖关系。因此进一步引入了全局时间信息建模的注意机制。具体地说，首先利用空间聚合器（一个平均池化+FC）降低了短期时空特征的空间维度，然后使用点乘来生成注意力图，它代表每两帧之间的相似度。最后基于相似度对局部时空特征进行优化。重复以上步骤六次，以提取更好的视频特征。最后，利用三层多层感知器(MLP)估计GMM分布的参数。

损失

为了确保STP-Net能够对高频分量 $f_h$ 得到准确的估计，损失中直接最小化 $p(f_h|f_l)$ 的负对数似然值： $\mathcal{L}_{c}=-\sum_{i=0}^{N} \log \left(p\left(f_{h}^{i} \mid f_{l}^{i}\right)\right)$ 缩小后的视频最好与原始视频相似。因此在量化之前对缩小的视频 $f_l$ 进行正则化： $\mathcal{L}_{\text {mimic }}=\left\|x_{\text {bicubic }}-f_{l}\right\|_{2}, x_{\text {bicubic }}=\operatorname{Bicubic}(x)$ 为了避免繁琐的解，为频率分析器和合成器的CNN部分添加如下惩罚项： $\mathcal L_{pen}=\Vert x-\mathsf{FS}(f)\Vert_2$ 最小化重构损失，其中 $l$ 为 $\mathcal L_1$ 损失，©为concat， $\hat f_h$ 从由STP-Net输出的参数构造的分布中采样，为了实现端到端的优化，本文采用了“重参数技巧”，使采样过程可微： $\mathcal L_{recons}=l(x,\hat x),\hat x=\mathsf{FS}(x_l©\hat f_h)$ 总的损失为： $\mathcal{L}_{\text {selfc }}=\lambda_{1} \mathcal{L}_{c}+\lambda_{2} \cdot k^{2} \mathcal{L}_{\text {mimic }}+\lambda_{3} \mathcal{L}_{\text {pen }}+\lambda_{4} \mathcal{L}_{\text {recons }}$ 值得一提的是，SelfC框架的性能对这些超参数并不敏感，直接将所有参数设置为1已经达到了合理的性能。

实验

视频压缩中的应用

本节将提出的SelfC框架扩展到有损视频压缩系统，目的是演示本方法在减少视频存储空间方面的有效性。整个系统下图所示：
在这里插入图片描述

首先使用SelfC生成缩小的视频 $x_l$ ，它将通过使用现成的工业视频编解码器进行压缩。然后在解码器端，压缩视频将被解压缩并上采样为全分辨率视频。考虑到传统的视频编解码器是非差分的，本文为此提出了一种新的优化策略：引入了可微代理视频扰动器φ，由6个Dense2D-T块的深度神经网络(DNN)组成。在反向传播阶段，编解码器的梯度可以近似为φ的梯度。在测试阶段，我们去掉代理DNN，直接使用H.265编解码器进行压缩和解压。
根据控制变量理论，φ可以作为视频编解码器的低方差梯度估计器(η)当(1)两个函数的输出差异最小化(2)两个输出分布的相关系数ρ最大。将这两个约束引入到视频压缩系统的优化过程中，φ的损失函数为： $\mathcal{L}_{\text {codec }}=\left\|\eta\left(x_{l}\right)-\phi\left(x_{l}\right)\right\|_{2}-\lambda_{\rho} \rho(\eta, \phi)$ 其中ρ被每批次的Monte Carlo采样估算： $\rho(\eta, \phi)=\frac{\sum_{k=1}^{N}\left(\eta\left(x_{l}^{k}\right)-\mathbb{E}[\eta]\right)\left(\phi\left(x_{l}^{k}\right)-\mathbb{E}[\phi]\right)}{\sqrt{\sum_{k=1}^{N}\left(\eta\left(x_{l}^{k}\right)-\mathbb{E}[\eta]\right)^{2}} \sqrt{\sum_{k=1}^{N}\left(\phi\left(x_{l}^{k}\right)-\mathbb{E}[\phi]\right)^{2}}},$ 其中 $\mathbb{E}[\eta]=\frac{1}{N} \sum_{k=1}^{N} \eta\left(x_{l}^{k}\right), \mathbb{E}[\phi]=\frac{1}{N} \sum_{k=1}^{N} \phi\left(x_{l}^{k}\right)$ 总损失为 $\mathcal{L}_{\text {compression }}=\mathcal{L}_{\text {self } c}+\lambda_{\text {codec }} \mathcal{L}_{\text {codec }}$ 视频动作识别任务相关应用与实验详见原文