ICCV2021 | 视频缩放任务中的自条件概率学习

在这里插入图片描述

作者单位:上交、北理、百度
论文链接:https://arxiv.org/pdf/2107.11639.pdf
编者言: 本文将视频缩放任务与视频压缩任务和视频动作识别任务联系起来,将模型中不可微分的模块通过辅助DNN训练求梯度的方法来进行模型的训练,相比H.265实现了较好的压缩率和恢复效果。

看点

本文提出了一个视频缩放的自条件概率框架(SelfC),以同时学习成对缩放过程。在训练时,在LR视频中有强时空先验信息的条件下,通过最大化降采样丢失信息的概率来减少丢失的信息熵。该方法利用LR视频中丰富的时间信息,通过引入指定的局部和全局时间聚合模块,精确估计分布参数。此外,本文进一步将该框架扩展到有损视频压缩系统,提出了一种基于控制变量法和Monte Carlo采样技术的非微分有损编解码器的梯度估计方法,用于整个系统的端到端训练。

方法

SelfC框架的如下图(a)所示,其中使用取整运算作为量化模块,并以H.265无损格式存储输出的LR视频。量化模块的梯度由直通估计器(STE)计算。
在这里插入图片描述

在降采样过程中,频率分析器(FA)首先将HR视频转换为视频特征 f f f,其中前3个通道为低频分量 f l f_l fl,后 3 ⋅ k 2 3·k^2 3k2个通道为高频分量 f h f_h fh k k k为采样系数。然后, f l f_l fl被量化为LR视频 x l x_l xl进行存储, f h f_h fh在这个过程中被丢弃。在上采样过程中,时空先验网络(STP-Net)预测高频分量 f h f_h fh的概率密度函数: p ( f h ∣ x l ) = S T P − N e t ( x l ) p(f_h|x_l)=\mathsf{STP-Net}(x_l) p(fhxl)=STPNet(xl) p ( f h ∣ x l ) p(f_h|x_l) p(fhxl)建模为连续高斯分布的参数矩阵,然后从分布中提取高频分量 f ^ h \hat f_h f^h。最后利用频率合成器(FS)将级联的 f ^ h \hat f_h f^h x l x_l xl重构出HR视频。

频率分析器和合成器

如上图(b)所示,首先将HR视频 x x x分解为低频组件 c l = D o w n ( x ) c_l=Down(x) cl=Down(x)和高频残差组件 c h = P i x e l U n s h u f f l e ( x − U p ( c l ) ) c_h=\mathsf {PixelUnshuffle}(x-\mathsf{Up}(c_l)) ch=PixelUnshuffle(xUp(cl)),然后用一个可学习的操作 T \mathcal T T将级联的 c l c_l cl c h c_h ch转换为输出特征 f f f T \mathcal T T的网络架构是非常灵活的,在此使用多个堆叠的Dense2D-T块实现它,Dense2D-T的结构在上图右侧。Dense2D-T块由Dense2D块修改而来,用时间卷积替换最后的空间卷积。频率合成器的结构与分析器是对称的,如上图 ( c ) (c) (c)所示。

自条件概率模型

由于量化模块使用取整运算,导致其梯度不平滑,直接使用梯度下降优化 p ( f h ∣ x l ) p(f_h|x_l) p(fhxl)是不稳定的。为此选择优化 p ( f h ∣ f l ) p(f_h|f_l) p(fhfl)。具体的说,将高频分量 f h f_h fh表示为基于低频分量 f l f_l fl的连续多模态概率分布,公式为: p ( f h ∣ f l ) = ∏ o p ( f h ( o ) ∣ f l ) p(f_h|f_l)=\prod_{o}p(f_h(o)|f_l) p(fhfl)=op(fh(o)fl)其中 o o o表示时空位置。使用组件数量K=5的连续高斯混合模型(GMM)来近似 p p p,其分布由可学习的混合权重 w o k w_o^k wok,平均值 μ o k \mu^k_o μok和对数方差 σ o k \sigma^k_o σok定义。分布可以精确的定义为: p ( f h ( o ) ∣ f l ) = ∑ k = 1 K w o k p g ( f h ( o ) ∣ μ o k , e σ o k ) p\left(f_{h}(o) \mid f_{l}\right)=\sum_{k=1}^{K} w_{o}^{k} p_{g}\left(f_{h}(o) \mid \mu_{o}^{k}, e^{\sigma_{o}^{k}}\right) p(fh(o)fl)=k=1Kwokpg(fh(o)μok,eσok)其中 p g ( f ∣ μ , σ 2 ) = 1 π σ e − ( f − μ ) 2 σ 2 p_{g}\left(f \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{\pi} \sigma} e^{-\frac{(f-\mu)^{2}}{\sigma^{2}}} pg(fμ,σ2)=π σ1eσ2(fμ)2

STP-Net

如(d)所示,为了估计上述分布的参数,提出STP-Net来对缩小后的视频中的局部和全局时间信息进行建模。首先利用Dense2D-T块提取每个输入帧的短期时空特征。在这一阶段,只将前一帧或下一帧的信息聚合到当前帧中,而忽略视频中的长时间依赖关系。因此进一步引入了全局时间信息建模的注意机制。具体地说,首先利用空间聚合器(一个平均池化+FC)降低了短期时空特征的空间维度,然后使用点乘来生成注意力图,它代表每两帧之间的相似度。最后基于相似度对局部时空特征进行优化。重复以上步骤六次,以提取更好的视频特征。最后,利用三层多层感知器(MLP)估计GMM分布的参数。

损失

为了确保STP-Net能够对高频分量 f h f_h fh得到准确的估计,损失中直接最小化 p ( f h ∣ f l ) p(f_h|f_l) p(fhfl)的负对数似然值: L c = − ∑ i = 0 N log ⁡ ( p ( f h i ∣ f l i ) ) \mathcal{L}_{c}=-\sum_{i=0}^{N} \log \left(p\left(f_{h}^{i} \mid f_{l}^{i}\right)\right) Lc=i=0Nlog(p(fhifli))缩小后的视频最好与原始视频相似。因此在量化之前对缩小的视频 f l f_l fl进行正则化: L mimic  = ∥ x bicubic  − f l ∥ 2 , x bicubic  = Bicubic ⁡ ( x ) \mathcal{L}_{\text {mimic }}=\left\|x_{\text {bicubic }}-f_{l}\right\|_{2}, x_{\text {bicubic }}=\operatorname{Bicubic}(x) Lmimic =xbicubic fl2,xbicubic =Bicubic(x)为了避免繁琐的解,为频率分析器和合成器的CNN部分添加如下惩罚项: L p e n = ∥ x − F S ( f ) ∥ 2 \mathcal L_{pen}=\Vert x-\mathsf{FS}(f)\Vert_2 Lpen=xFS(f)2最小化重构损失,其中 l l l L 1 \mathcal L_1 L1损失,©为concat, f ^ h \hat f_h f^h从由STP-Net输出的参数构造的分布中采样,为了实现端到端的优化,本文采用了“重参数技巧”,使采样过程可微: L r e c o n s = l ( x , x ^ ) , x ^ = F S ( x l © f ^ h ) \mathcal L_{recons}=l(x,\hat x),\hat x=\mathsf{FS}(x_l©\hat f_h) Lrecons=l(x,x^),x^=FS(xlcf^h)总的损失为: L selfc  = λ 1 L c + λ 2 ⋅ k 2 L mimic  + λ 3 L pen  + λ 4 L recons  \mathcal{L}_{\text {selfc }}=\lambda_{1} \mathcal{L}_{c}+\lambda_{2} \cdot k^{2} \mathcal{L}_{\text {mimic }}+\lambda_{3} \mathcal{L}_{\text {pen }}+\lambda_{4} \mathcal{L}_{\text {recons }} Lselfc =λ1Lc+λ2k2Lmimic +λ3Lpen +λ4Lrecons 值得一提的是,SelfC框架的性能对这些超参数并不敏感,直接将所有参数设置为1已经达到了合理的性能。

实验

视频压缩中的应用

本节将提出的SelfC框架扩展到有损视频压缩系统,目的是演示本方法在减少视频存储空间方面的有效性。整个系统下图所示:
在这里插入图片描述

首先使用SelfC生成缩小的视频 x l x_l xl,它将通过使用现成的工业视频编解码器进行压缩。然后在解码器端,压缩视频将被解压缩并上采样为全分辨率视频。考虑到传统的视频编解码器是非差分的,本文为此提出了一种新的优化策略:引入了可微代理视频扰动器φ,由6个Dense2D-T块的深度神经网络(DNN)组成。在反向传播阶段,编解码器的梯度可以近似为φ的梯度。在测试阶段,我们去掉代理DNN,直接使用H.265编解码器进行压缩和解压。
根据控制变量理论,φ可以作为视频编解码器的低方差梯度估计器(η)当(1)两个函数的输出差异最小化(2)两个输出分布的相关系数ρ最大。将这两个约束引入到视频压缩系统的优化过程中,φ的损失函数为: L codec  = ∥ η ( x l ) − ϕ ( x l ) ∥ 2 − λ ρ ρ ( η , ϕ ) \mathcal{L}_{\text {codec }}=\left\|\eta\left(x_{l}\right)-\phi\left(x_{l}\right)\right\|_{2}-\lambda_{\rho} \rho(\eta, \phi) Lcodec =η(xl)ϕ(xl)2λρρ(η,ϕ)其中ρ被每批次的Monte Carlo采样估算: ρ ( η , ϕ ) = ∑ k = 1 N ( η ( x l k ) − E [ η ] ) ( ϕ ( x l k ) − E [ ϕ ] ) ∑ k = 1 N ( η ( x l k ) − E [ η ] ) 2 ∑ k = 1 N ( ϕ ( x l k ) − E [ ϕ ] ) 2 , \rho(\eta, \phi)=\frac{\sum_{k=1}^{N}\left(\eta\left(x_{l}^{k}\right)-\mathbb{E}[\eta]\right)\left(\phi\left(x_{l}^{k}\right)-\mathbb{E}[\phi]\right)}{\sqrt{\sum_{k=1}^{N}\left(\eta\left(x_{l}^{k}\right)-\mathbb{E}[\eta]\right)^{2}} \sqrt{\sum_{k=1}^{N}\left(\phi\left(x_{l}^{k}\right)-\mathbb{E}[\phi]\right)^{2}}}, ρ(η,ϕ)=k=1N(η(xlk)E[η])2 k=1N(ϕ(xlk)E[ϕ])2 k=1N(η(xlk)E[η])(ϕ(xlk)E[ϕ]),其中 E [ η ] = 1 N ∑ k = 1 N η ( x l k ) , E [ ϕ ] = 1 N ∑ k = 1 N ϕ ( x l k ) \mathbb{E}[\eta]=\frac{1}{N} \sum_{k=1}^{N} \eta\left(x_{l}^{k}\right), \mathbb{E}[\phi]=\frac{1}{N} \sum_{k=1}^{N} \phi\left(x_{l}^{k}\right) E[η]=N1k=1Nη(xlk),E[ϕ]=N1k=1Nϕ(xlk)总损失为 L compression  = L self  c + λ codec  L codec  \mathcal{L}_{\text {compression }}=\mathcal{L}_{\text {self } c}+\lambda_{\text {codec }} \mathcal{L}_{\text {codec }} Lcompression =Lself c+λcodec Lcodec 视频动作识别任务相关应用与实验详见原文

视频压缩任务中的实验

视频压缩任务上的定量实验
在这里插入图片描述
Bjøntegaard Delta Bit-Rate(BDBR)结果,数值越低表示降低的比特成本越高
在这里插入图片描述
视频缩放+编解码器与梯度估计方法的实验,值得注意使用Bicubic作为视频缩放方法的结果远不如基线
在这里插入图片描述

消融实验

SelfC-small和SelfC-large分别由2个和8个可逆的Dense2D-T块组成。
在这里插入图片描述

定量评估

在VID4上的定量评估
在这里插入图片描述

定性评估

在VID4上的定性评估
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值