2021-09-05

最新推荐文章于 2022-08-23 17:56:56 发布

Daisy_yty

最新推荐文章于 2022-08-23 17:56:56 发布

阅读量334

点赞数

分类专栏： tile划分文章标签：视频处理

tile划分专栏收录该内容

4 篇文章 1 订阅

订阅专栏

关于视频编码相关论文的阅读总结

N. Kan, J. Zou, C. Li, W. Dai and H. Xiong, "RAPT360: Reinforcement Learning-Based Rate Adaptation for 360-degree Video Streaming with Adaptive Prediction and Tiling," in IEEE Transactions on Circuits and Systems for Video Technology.

N. Kan, J. Zou, C. Li, W. Dai and H. Xiong, “RAPT360: Reinforcement Learning-Based Rate Adaptation for 360-degree Video Streaming with Adaptive Prediction and Tiling,” in IEEE Transactions on Circuits and Systems for Video Technology.

论文的目的：设计一种能进一步减少冗余信息传输的最优分片方案,来最大化带宽限制下的用户QOE（高效利用带宽）

1.用户QOE的定义：
传统二维视频的质量通常由PSNR、MSE和SSIM指数等指标来衡量。不幸的是，它们都不适用于360度视频，因为每个360度球形视频帧都被拉伸成一个矩形帧，而拉伸失真/效果不能用这些度量精确地表征[2]。相比之下，[6]所描述的球形失真是一种可识别且有效的测量360度视频失真的方法。解决拉伸/翘曲问题的主要思路是根据每个瓦片的空间位置为其变形赋一个权重，然后计算所有瓦片的加权平均变形。具体来说，贴图的重量是由二维投影中球面区域的拉伸程度决定的，拉伸程度越高，权重越小。由于每个块的编码过程是相互独立的，因此任意块的一个块都可以被视为一个视频序列，该序列具有唯一的率失真行为，而编码比特率和失真之间的映射取决于视频内容的复杂度。本文利用SSIM指标来度量瓷砖的失真度，并定义其函数：
在这里插入图片描述
fr2d表示对应tile的具体率失真映射，可以在编码过程中计算。因此，客户端在从视频服务器上下载每一个贴图之前，可以得到每一个贴图在不同比特率下的实际失真值(即SSIM索引)。
失真计算：
一：总的视频质量Dj,j为chunk j，平均的视频质量又用质量平滑度来表示，质量平滑由时间质量平滑和空间质量平滑组成，
空间质量平滑由视口预测范围与tile的覆盖范围联合拉普拉斯置信度综合计算获得
时间质量平滑由这一帧的质量Dj减去上一帧的质量Dj-1获得
二：重缓冲时间
用户QoE的另一个关键组成部分是重缓冲延迟，它测量回放期间的视频停顿时间。由于rebuffering事件是由于下载时间超过了缓冲区占用率造成的，因此对于chunk Cj的比特率分配而言，rebuffering延迟的惩罚应该与Υj = (ωj−Bj)+成正比。
在这里插入图片描述
用户QoE的定义：
为了在提高视频质量和降低rebuffering事件风险之间进行权衡，我们将第j块的总体QoE定义为所分配比特率R的函数，如下所示：

βs、βt分别为非负惩罚权值，以保证空间/时间质量平滑，λ为惩罚延迟。由于将时变预测窗口合并到头部旋转预测中的底层机制将保持缓冲区占用在较低水平，并保持可见区域的面积较小，因此通过最大限度地提高Eq.(24)中的总体QoE，在交付过程中也将实现高带宽效率。
主要贡献：
提出视口感知自适应平铺方案的核心思想是用细粒度划分的tile覆盖三个不同区域的边界(可观测区域all、边缘区域side、视口区域fov；其中视口区域和边缘区域来自可观测区域)，以减少传输冗余，而用中粒度或粗粒度平铺显示其他区域，以提高压缩效率
两个idea:
1.视口识别方法，可以使预测视口随着缓冲占用率的变化而变化，并且以任意预设的概率置信水平完全覆盖真实视口。
2.在带宽限制下的tile感知自适应划分组合方案
针对问题：
因为全景视频在观看过程中不会被用户一次性观看所有视频内容，所以在全景视频编码流传输工作中出现了FoV的概念，目前有很多如何预测视口区域的相关工作。但是既然是预测那就有预测不准确的情况，尤其是在视频观看这种主观性占据很大一部分的研究领域内。这篇文献提出在现有的视口预测工作忽略了预测长度与缓冲区占用率之间的关系，所以在预测不准确是只是“粗暴”地扩大加载预测不准确区域的面积（加大传输量）。

tile尺寸划分标准

提出原因：由于二维360度视频帧中平铺的规则形状很难与FoV的边界重合，因此FoV外的一些像素也被高质量地传送。为了避免FoV以外高质量像素传输，可以选择降低视频细粒度，但是无可避免地就会降低视频观看体验，从而降低视频编码的压缩效率。现有的工作，如[13]，[14]，已经研究了视频编码的最佳全局性确定，但是忽略了考虑用户视角的动态性以及与360度自适应流化系统的协调性。
用欧拉角表示视口，并用拉普拉斯分布表示每个角的置信概率值（我理解是预测视口的工作，表示每个对应观看视角可能的概率）
在置信度C1以内可以保证预测的视口范围完全覆盖甚至重叠真实视口，并通过拉普拉斯概率和置信度计算确定每个tile被观看的概率，根据被观看的概率可以将tile分为三种大小如下：
边缘区域——小
视口区域——中
可观测区域——大
关于tile尺寸的大小思考：一般来说，减小tiles的大小可以减少冗余信息的传输，但由于每个tiles的编码过程是相互独立的[25]，因此也会降低编码视频的压缩效率。因此，贴图粒度越细，在编码过程中作为参考的视频内容就越少，压缩效率就越低，即压缩冗余度越高。文章中tile的划分也是为了权衡传输冗余和压缩冗余以期最优
划分规则
用拉普拉斯分布来拟合预测误差，并且从不同预测长度的误差样本中学习拉普拉斯的时变概率密度函数
关于拉普拉斯概率密度函数的公式和函数图：

https://blog.csdn.net/weixin_30920597/article/details/94844019

基于所提出的视口识别方法和视口感知的自适应贴片方案，我们将贴片比特率分配的顺序决策建模为一个非线性离散优化问题，该问题的目标是在约束带宽下最大化长期QoE。然后我们开发了一种基于drl的速率自适应算法来解决这一问题，该算法通过神经网络学习最优比特率分配策略。
如何选择划分的好坏，根据用户视区的动态和传输容量，自适应地为每个块切换不同的质量，从而传送视频。但是，由于瓷砖的矩形形状与可见区域的边界不一致，因此仍可能传递一些冗余信息。例如，如果一个平铺的一部分属于视口区域，而其余部分属于边缘区域，那么这个平铺应该以高质量交付，尽管用户只会以更高的概率观看其场景的一部分。
冗余信息分为：传输冗余和压缩冗余对冗余信息做均衡
通过获取服务器的信息来对应下载tile自适应划分算法中的划分好的tile以适当的比特率下载至缓冲区

Problem Formulation

速率自适应的最终目标是提高视频播放过程中的长期用户QoE。根据这个目标，自适应360度视频流的整体优化问题可以表示为：
在这里插入图片描述
优化问题P1是一个有限视域随机最优控制问题，其目标函数为最大化长期用户质量。如果事先知道用户视口和网络吞吐量的动态，可以通过动态规划得到最优解。

然而，不幸的是，这种最优解决方案不可能实现在线费率适配，因为我们只能粗略地预测视口和在不久的将来近似的吞吐量。此外，DP算法的计算复杂度也随着块数(即J)的增加呈指数增长，这使得DP算法在实践中难以实现。
实验
实验表明tile的自适应划分方案可以达到高校利用带宽
我们在40处理器的32GB RAM服务器上实现RAPT360，其中每个处理器都是英特尔CPU，时钟频率为2GHz。视频服务器,我们使用H.265 / HEVC编解码器(开源编码器Kvazaar[29])编码三个测试视频[30]:集(如),BasketballCourt (BC),和StudyRoom (SR),这些都是分辨率为8192×4096 (8 k),长度为36秒,每秒30帧的帧速率。每个视频在空间上进一步划分为三种瓦片粒度，瓦片大小分别为1024×1024(粗粒度)、512×512(中粒度)和256 × 256(细粒度)。同时，将每个粒度的块预转码为5个不同的视频码率，QP从{12,17,22,27,32}中选择。这些3 × 3 × 5类型的编码位流然后被MP4Box[31]打包成流文件，MP4Box[31]以不同的轨道分割每个块的块，块持续时间设置为L = 1秒。可用的编码视频版本信息，包括比特率和平均SSIM指数，如表i所示。对于总体QoE度量的参数，我们设λ = 0.05， βt = βs = 0.25。
对于tile划分方案：
首先分析了不同粒度下编码的压缩效率。在实验中，对于每个测试视频，我们比较了不同粒度的流文件用相同的QP编码时的比特率。
表一给出了不同qp下的比特率和SSIM索引的值。可以看出，视频的不同编码版本在使用相同的QP值但不同的tile粒度进行编码时，其失真程度是相似的。对于同一视频，QP值的增大会显著降低流媒体文件的比特率。同时，增大贴图大小也会降低流媒体文件的比特率，但幅度不大。当对视频进行高质量编码时，即QP较小时，较细的tile粒度对压缩效率的影响较小。然而，当质量越来越低时，这种影响就会变得更加严重。为
以测试视频SR为例，当QP=12时，细粒度平铺的比特率仅略大于粗粒度的比特率，比特率增量为3.93 Mbps(增幅为3.72%)。然而，当QP增加到32时，这个百分比值增加到142.16%。

Daisy_yty

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
2021-09-05

关于视频编码相关论文的阅读总结N. Kan, J. Zou, C. Li, W. Dai and H. Xiong, "RAPT360: Reinforcement Learning-Based Rate Adaptation for 360-degree Video Streaming with Adaptive Prediction and Tiling," in IEEE Transactions on Circuits and Systems for Video Technology.论文的目的：设
复制链接

扫一扫