ICCV2021 | 参数量仅为原来1%，北邮等利用超分算法提出高性能视频传输方法

最新推荐文章于 2024-12-23 11:08:26 发布

计算机视觉研究院

最新推荐文章于 2024-12-23 11:08:26 发布

阅读量537

点赞数

文章标签：算法 python 计算机视觉机器学习人工智能

原文链接：https://mini.awsapp.cn/index.html#/pages/regist/regist?tmpId=149

版权

计算机视觉研究院专栏

作者：Edison_G

来自北京邮电大学和英特尔中国研究院的研究团队创新性地利用超分辩率算法定义了网络视频传输任务，减小了网络视频传输的带宽压力。

本篇文章转自于“机器之心”

论文链接：http://arxiv.org/abs/2108.08202
GitHub 地址：https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021

该研究的主要贡献包括：

提出了一种新颖的内容感知特征调制（CaFM）模块的联合训练框架，用于网络间的视频传输；
对各种超分辨率 backbone、视频时间长度和缩放因子进行了广泛的实验，证明了该方法的优势和通用性；
在相同的带宽压缩下，与商业 H.264 和 H.265 标准进行比较，由于过度拟合的特性，该方法展示了更有潜力的结果。

图 1

方法

动机和发现

图 2

图 3

内容感知特征调制模块(CaFM)

该研究将内容感知特征调制 (CaFM) 模块引入基线模型(EDSR)，以私有化每个视频段的 SR 模型。整体框架如图 4 所示。正如上文动机中提到的，CaFM 的目的是操纵特征图并使模型去拟合不同的视频段。因此，不同段的模型可以共享大部分参数。该研究将 CaFM 表示为 channel-wise 线性函数：

其中 x_j 是第 j 个输入特征图，C 是特征通道的数量，a_j 和 b_j 分别是 channel-wise 的缩放和偏置参数。该研究添加 CaFM 来调制基线模型的每个卷积层的输出特征。以 EDSR 为例，CaFM 的参数约占 EDSR 的 0.6%。因此，对于具有 n 个段的视频，可以将模型的大小从 n 个 EDSR 减少到 1 个共享 EDSR 和 n 个私有 CaFM 模块。因此，与基线方法相比，该方法可以显著降低带宽和存储成本。

图 4

联合训练

正如上文中所介绍的，该研究可以利用 CaFM 去替换每个视频段的 SR 模型。但是通过在一个 SR 模型上微调n 个 CaFM 模块的方式很难将精度提升到直接训练 n 个 SR 模型的 PSNR。因此该研究提出了一种联合训练的框架，该框架可以同时训练 n 个视频段。公式可以表示为：

对于 SR 图片，i 表示第 i 个视频段，s 表示该视频段中的第 s 个 sample。公式中 W_s 表示共享的参数，W_i 表示每个视频段私有的参数。对于每个视频段，可以这样计算损失函数:

在训练过程中，该研究从视频段中统一采样图像来构建训练数据。所有图像用于更新共享参数 W_s，而第 i 个视频段的图像用于更新相应的 CaFM 参数 W_i。

VSD4K 数据集

Vimeo-90K 和 REDS 等公共视频超分数据集仅包含相邻帧序列(时常太短)，不适用于视频传输任务。因此，该研究收集了多个 4K 视频来模拟实际的视频传输场景。该研究使用标准的双三次插值来生成低分辨率视频。研究者选择了六个流行的视频类别来构建 VSD4K，其中包括: 游戏、vlog、采访、体育竞技、舞蹈、城市风景等。每个类别由不同的视频长度组成，包括：15 秒、30 秒、45 秒、1 分钟、2 分钟、5 分钟等。VSD4K 数据集的详细信息可在论文的 Appendix 中阅读，同时 VSD4K 数据集已在github项目中公开。

定性 & 定量分析

主实验对比

根据上表可以清晰地看到，在不同的视频和超分尺度上该方法 (Ours) 不仅可以追赶上训练 n 个模型 (S1-n) 的精度，并且可以在峰值信噪比上实现精度超越。注：M0 表示不对长视频进行分段，在整段视频上只训练一个模型。

VS codec

该部分实验对本文提出的方法和传统 codec 方法 (调低码率做压缩) 进行了定量比较。根据上表可以清晰地看到 (红色表示第一名，蓝色表示第二名)，在相同的传输大小下(Storage)，该方法(Ours) 在大多数情况下可以超越 H264 和 H265。同时视频的长度越长，SR 模型所占传输大小的比例越小，该方法的优势越明显。

定性比较

总体而言，该论文创新性地利用超分辩率算法定义网络视频传输任务，目的是减少网络视频传输的带宽压力。利用内容感知特征调制 (CaFM) 模块结合联合训练的方式，对每个视频段对应的模型参数量进行压缩(1%)。为后续的研究者，提供了新的研究方向。

© THE END

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！