【点云阅读笔记】Joint Machine Learning and Game Theory for Rate Control in High Efficiency Video Coding_learning-based rate control for high efficiency vi-CSDN博客

本文链接：https://blog.csdn.net/weixin_43444175/article/details/123286231

阅读报告

Joint Machine Learning and Game Theory for Rate Control in High Efficiency Video Coding[1]

本文主要要点

优点：

利用机器学习中的 $v$ -SVM分类器对CTU进行分类，以求提高在CTU层级上提高率失真理论模型的预测精度；
提出了一个基于博弈论的率失真模型，为CTU分配比特流，从而达到更好的综合性能。

本文详细报告

本文综合了机器学习和博弈论的建模，分两步走。第一步是用SVM的多分类，以求实现精确的CTU级R-D模型。第二部是利用博弈论，获得一个纳什均衡解，以实现对bits的分配。

Step 1：利用SVM分类器进行模型的预测

Main Idea

单通道RC算法中有一个很大的问题，因为帧与帧之间的参数和在CTU中的预测残差相互影响，这导致了一个困境，即”先有鸡还是先有蛋问题“(导致了前期参数不work，后期不快收敛）。因此，该文章使用机器学习来根据原始视频信号之前和当前变化的信息预测速率与失真的（R-D）关系。利用SVM分类器分为三类：SKIP_Most_CTUs, 1.0-order and 1.5-order R-D models。

Work

首先，先是提取特征，特征的提取是在每三个帧中来提取。每三个帧中，利用第 $i$ 个帧 $F_i$ 和第 $i - 1$ 个帧 $F_{i-1}$ 进行计算，所计算的方法为：ADM（绝对差分）。之后是用两个这样的绝对差分进行计算。事实上，这一段考虑了两个连续的ADM之后的 $\Delta \text { diff }_{1} \text { and } \Delta \text { diff }_{2}$ 之间的关系。

分类器使用的是 $v$ -SVM（一种软间隔SVM，可以更加鲁棒），是一个可以调节分类器参数的SVM。选用的是高斯核。投票方案是SVM的一对一投票方案。

Step 2：利用博弈论，分配bits流

Main Idea

比特流的分配说到底是一个资源分配问题：算法将比特流分配给不同的CTU，以最大化Rate-Distortion精度为目标，指标有SSIM等。比特流不能均分的原因是，不同的CTU的性能不同，因而，它们需要不同的bits流资源。在所提出的算法中，每个CTU都会参与竞争比特流，但每一个类所竞争bits流的能力不同，因而可以竞争不同数量的bits流，以获得总体效用最大化的功能。

Work

在之前的研究，已经证明了， $Q_{\text {step }}=k D$ ，两者呈不严格的正比。并且，将R-D模型考虑进来，可以得到：

$\begin{aligned}&R_{i}=k_{i} C_{1, i} / Q_{\text {step, } i} \\&R_{i}=k_{i}^{3 / 2} C_{2, i} / Q_{\text {step, } i}^{3 / 2}\end{aligned}$

之后，因为SMC的特殊性，我们将其忽略，因此仅仅剩下 $R_c$ 可以分配给1.0-order和1.5-order：

$R_{C}=R_{f}-\sum_{i=1}^{N_{S M C}} r_{S M C, i}$

紧接着之后，便可以提出一个拉格朗日乘子式：

$\max \sum_{i=1}^{N} \ln \left(U_{i}-U_{i, d}\right), \quad \text { s.t. }\left\{\begin{array}{l}r_{i} \geq r_{i, d} \\\sum_{i=1}^{N} r_{i} \leq R_{c} \\r_{i, \min } \leq r_{i} \leq r_{i, \max }\end{array}\right.$

对1.0-order和1.5-order的CTU求偏导，置其为0，便可以得到最终的结果。

参考文献

[1] Gao W, Kwong S, Jia Y. Joint machine learning and game theory for rate control in high efficiency video coding[J]. IEEE Transactions on Image Processing, 2017, 26(12): 6074-6089.