论文笔记-Learning to Predict Streaming Video QoE: Distortions, rebuffering and memory

最新推荐文章于 2023-03-30 09:59:46 发布

Sissuire

最新推荐文章于 2023-03-30 09:59:46 发布

阅读量1.4k

点赞数 6

分类专栏：论文笔记文章标签： QoE VQA

本文链接：https://blog.csdn.net/u014150857/article/details/81051656

版权

论文笔记专栏收录该内容

3 篇文章 2 订阅

订阅专栏

info

Bampis C G, Bovik A C. Learning to predict streaming video QoE: Distortions, rebuffering and memory[J]. arXiv preprint arXiv:1703.00633, 2017.
PDF can be found here

与其说是笔记，不如说是小翻译，以便日后翻阅，也给有需要的人提供一点参考。但是能力有限，万望谅解。

注：文中的我们是指作者(们)，不是我(们)

Abstract

移动流媒体视频数据与日俱增，而我们可使用的带宽经常不稳定，所以就会给高质量视频的传输带来困扰。诸如Netflix或者YouTube等流媒体服务提供商都需要根据带宽的变动，调整其供给状态，比如降低传输视频的比特率，或者在更糟糕的时候进行缓冲(rebuffering)。

在调整供给时，通过估计用户的体验质量(Quality of Experience, QoE)，可以更好地设计一种感知驱动的网络资源分配策略，以便获得更高的QoE。现有的QoE方法仅仅考虑了视频质量衰减或者rebuffering中的一种情况，而对于流媒体应用来说，在有限带宽的情况下，比特率的动态分配（带来视频质量衰减）和rebuffering都可能会出现。

因此，我们提出了一种基于机器学习的框架：Video Assessment of TemoraL Artifacts and Stalls (Video ATLAS)，来同时度量这两种情况。我们结合了一些与QoE相关的特征，包括客观质量特征、与rebuffering有关特征，以及记忆驱动的特征，来做QoE的估计。我们在LIVE-Netflix数据集上测试了苏提出的模型，取得了较好的结果，并且通过在Waterloo DB上测试，也表明了模型有很好的泛化性。同时，给源码。

Introduction

背景介绍，我为什么要做这个工作？

现在视频越来越多，诸如Netflix和YouTube等提供商在面对有限的网络带宽时，都不得不做一些资源分配的决策，以便平衡用户的体验质量(Quality of Experience, QoE)。由于视频数据的最终用户是人，所以应该设计一种感知驱动的优化策略来指导资源分配问题。(也就是说，要是我的QoE做得好，那么我就可以根据QoE来调整供给策略，使得QoE最大化)

但是，人很复杂啊，所以QoE要做好其实很难。我们关注的的QoE一般有两种：单个QoE值和连续时间的QoE。单个QoE值就是给你一段视频，看完后，给我打一个质量分数（好不好啊，给个五星好评还是一星差评），描述的是整个视频片段的质量；连续的QoE分数是随着时间，被试者不停地给出连续时间的质量分数，可能会受到短时或者长时的记忆机制的影响。

同时，现有的视频质量评价(Video Quality Assessment, VQA)方法不足以估计主观QoE，视频的各种噪声，包括压缩噪声，以及rebuffering，都会对主观的QoE产生不同的影响。然而，只有近年来的一些方法才关注rebuffering的影响，而同时估计不同质量衰减噪声和rebuffering的QoE方法，更是难上加难。

为了解决这个问题，我们用一种基于学习的方法，同时考虑比特率变化所带来的质量衰减影响和rebuffering，来做QoE的估计。由于现有的QoE数据集都不能很好的同时刻画出质量衰减和rebuffering，但在实际中，这是很常见的情况。所以我们最近也做了一个数据集LIVE-Netflix，来弥补这一缺陷。

Previous Work on QoE Prediction

我要做这个工作，那之前是怎么做的呢？做到什么程度了？

我们考虑两种影响QoE的情况：

Impairments of Videos with Normal Playback

一种常见的优化带宽消耗的策略就是采用自适应比特率分配策略。降低比特率会带来更强的压缩噪声，如下图左。除了比特率的选择会导致压缩噪声，其它一些与网络相关的影响也会产生数据丢包等问题。但是这类视频噪声基本没有rebuffering问题，因为在网络很差的时候会丢包。

基本上现有的大部分VQA算法都是基于此类视频噪声来做的。FR-IQA：SSIM、MS-SSIM，FR-VQA：VQM_VFD、MOVIE、ST-MAD、VMAF、FLOSIM，RR-VQA：STRRED。

Playback Interruption

但是有时候，在可用带宽极低时，播放中断是不可不避免的，如下图右。大部分的工作都表明，rebuffering的持续时长、频率和位置都会影响QoE。一些方法如FTW、VsQM利用了rebuffering的全局统计特性，现在的一些工作在考虑rebuffering对QoE的影响的基础上，整合了recency的机制。

但是这些工作都只是对上述两种噪声类型中的一种进行研究，要么针对第一种压缩噪声，要么针对第二种rebuffering，其中一个因素是因为缺少合适的主观数据。在[32]中，作者结合了全参考的算法（如SSIM和MS-SSIM）和rebuffering的信息，产生了Streaming Quality Index (SQI)。在[33]中，作者将QP值和与rebuffering相关的特征输入到Random Neural Network估计QoE。但是呢，这些算法用的视频数据不充分，一共只有4种视频内容，每段视频只有16秒，因此也没考虑到长时记忆的影响。这就引导我们做一个更大的基于流媒体的主观数据集，以及设计相应的算法。

需要注意的是，HTTP Adaptive Streaming（HAS）使用了TCP协议，因此能抗拒一些由数据丢包产生的噪声，比如视频数据丢失或者其他的瞬变。因此，我们只需要考虑两类主要的噪声：压缩（多个编码比特率）和播放中断（rebuffering）。

所以，下面，我们要先介绍一下我们见了一个数据集，然后基于这个数据集，我们提出一个新的方法：Video ATLAS。

The LIVE-Netflix Rebuffering Dataset

他们的数据集都不够好，所以我要自己造

大部分现有的数据集，都只考虑了上述两种噪声中的一种，或者方式很特定，妨碍了实用性。所以我们自己造了一个数据集LIVE-Netflix：14个参考视频，每个参考视频可以产生8种不同的比特变化或者rebuffering形式（Patterns），产生了112个噪声视频。我们假设可获得带宽最大250kbps，最小100kbps，下图给一个小例子。我们假定buffer的容量是固定的，所以我们可以对不同比特率下的Patterns、rebuffering的位置和时长等进行比较。

Is Objective VQA Enough ?

数据集造好了，我要开始自己设计算法了，为什么呢？因为现有的算法不行……行就没得玩儿了

现有的大部分VQA算法都没考虑rebuffering，但是现实中我们其实很需要。所以我们挑了一堆QA算法，在我们的LIVE-Netflix上测了一下，他们果然不行:)

我们是这样测的，首先挑出没有rebuffering的视频，测得一个质量 $S_q$ ，然后对所有视频，测得一个质量 $S_{all}$ ，结果在下面这张图。（都是辣鸡）

我们觉得，主观QoE是受rebuffering和质量衰减联合影响的，而不应该仅仅只度量质量衰减这一个因素。所以客观VQA都不这么可靠，因为它们都将这种关联性去掉了，这也启发我们要考虑这种相关性。

Learning-based Framework for QoE Prediction

你们都不行，所以该我了

我们提了一些特征，因为需要同时度量质量衰减和rebuffering，所以这些特征有：
- Objective Video Quality Scores (VQA)：现有的一些VQA算法都可以整合进来用，取平均到一个score值；
- Rebuffering-aware features ( $R_1$ 和 $R_2$ )：每段rebuffering的时间长度 $R_1$ 和rebuffering的次数 $R_2$ ；
- Memory-related feature (M)：由于QoE在的一定程度上依赖于recency effect(一般来说，噪声出现的时刻越接近你给出质量分数的时刻，噪声的主观效果越强烈)，所以我们也计算了最后一次发生rebuffering或者比特率跳变，到视频末尾的时间长度；
- Impairments duration feature (I)：噪声所cover的时长。

事实上，第一种VQA特征基本度量质量衰减，后续的几个特征主要是在致力于rebuffering的度量（当然，也对质量衰减有影响）。同时，由于rebuffering的视频中有在暂停缓冲阶段，噪声视频是静止的，而参考视频在继续随着时间播放，所以在做FR-VQA时，会有一个校准的过程，避免在计算时出现参考帧和测试帧不是在同一个时刻的情况。

Training and Evaluation of The Proposed Framework

我们试了很多次，发现效果还可以，所以发论文了

我们提了一些特征，所以该用机器学习来训练测试了。机器学习有很多，每个的性能出来都不一样，所以我选了一堆（而不是一个）：linear models (Ridge and Lasso regression), Support Vector Regression (SVR), 以及ensemble methods: Random Forest (RF), Gradient Boosting (GB), Extra Trees (ET) regression。

因为是机器学习嘛，所以我们做了很多实验……