HEVC码率控制

最新推荐文章于 2024-01-19 09:24:49 发布

AaronXueNF

最新推荐文章于 2024-01-19 09:24:49 发布

阅读量284

点赞数

分类专栏： HEVC学习笔记文章标签：编码器 hevc

本文链接：https://blog.csdn.net/AaronXueNF/article/details/121029362

版权

HEVC学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考资料：

[1]万帅，杨付正编著. 新一代高效视频编码H.265/HEVC 原理、标准与实现[M]. 北京：电子工业出版社, 2014.12.

上一章：HEVC率失真优化

码率控制概述

码率控制的主要工作是建立编码速率R与量化参数QP的关系，公式化描述为：
$Q^* = (Q^*_1,\dotsb,Q^*_N)=argmin_{(Q_1,\dotsb,Q_N)}\sum_{i=1}^{N}{D_i} \,\,\,\,\, s.t.\sum_{i=1}^{N}{R_i} \leq R_c \tag{1}$

码率控制算法组成

比特分配：依据视频内容、缓冲区状态、信道带宽为每个编码单元（GOP、帧、CTU）分配最优的目标比特数。HEVC多种预测技术的采用使得不同编码单元间具有高度相关性，需要在该部分着重考虑。
量化参数确定：依据码率R-量化参数QP模型为每个编码单元选择最优编码参数QP。QP选择受其他参数影响较小，但其采用的模型高度依赖于视频内容特征。

缓冲区模型

缓冲区用于平衡编码器输出码率和信道速率。缓冲越大，适应信源、信道码率波动的性能越好，但相应地会引入较大延迟。
请添加图片描述

缓冲区采用流体流量模型建模：
$B_c(n+1) = max \lbrace 0 , B_c(n)+A(n)-u(n) \rbrace \tag{2}$

其中：

$B_c(n)$ 为第n时刻缓冲区占用
$A (n)$ 为第n时刻编码器输出码率
$u (n)$ 为第n时刻信道速率

目标比特分配概述

该部分给出码率控制算法理论上的指导思想，而非具体实现。
码率控制算法需要作用于不同层级依次分配比特。HEVC中层级的顺序为：GOP-Frame-CTU。

图像层目标比特分配

由于HEVC中采用了复杂的时域参考关系，因此当前图像的编码比特数分配依赖于其参考的图像。该部分详细推导见[1]第12章，这里只给出结论：
假设已编码的图像失真确定后，当前编码图像的失真D只与其比特数R有关。（拓展：该问题具有马尔可夫性？）
假设变换系数服从参数为α的拉普拉斯分布：
$p(x)=\frac{\alpha}{2}e^{(-\alpha|x|)}$
其中：α反映视频内容特性

定义失真度为绝对误差，得率失真函数：
$\begin{cases} ln(\frac{1}{\alpha D}), & 0<D\leq\frac{1}{\alpha} \\ 0, & other \end{cases}$

根据[1]中描述的依赖关系：
$\frac{\partial D_i}{\partial R_i} = -\frac{\lambda}{\omega_i}$
$\frac{\partial D_i}{\partial R_i} = -\frac{1}{\alpha_i}e^{-R}$

结合上式：
$R_i = -ln(\frac{\alpha_i}{\omega_i}\lambda) \tag{3.1}$

其中：

$\alpha_i \, , \, \omega_i$ 与视频内容相关
$\omega_i$ 与时域预测结构相关
λ由总比特数 $R_c$ 确定

上述公式的意义：只要找到λ-总比特数 $R_c$ 的关系，即可为每帧图像分配最优比特数！

实际中考虑复杂度，往往做出如下假设：

时域预测结构固定，内容特性稳定，不同图像之间最优目标比特数具有较为稳定的关系。

此时问题可简化为下式：
$\frac{R_i}{R_j} = \frac{ln(\frac{\alpha_i}{\omega_i}\lambda)}{ln(\frac{\alpha_j}{\omega_j}\lambda)} = \eta_{i,j} \tag{3.2}$
$\sum_{i=1}^{N}R_i = R_c \tag{3.3}$

其中：

$\eta_{i,j}$ 为第i、j图像之间的相关参数，由视频内容特性、时域预测结构、总目标比特数确定。

优化：
这里假设内容特性稳定，但实际该条件不一定满足。码率控制的不少文献中也指出了该问题。

量化参数模型概述

[1]中给出了多种目前研究得到的R-QP模型，其中各个模型均包含与视频序列相关的参数。这里省略推导过程。文中详细讲述二次率失真模型的推导，可以参见H264中模型的推导。
JM编码器码率控制算法笔记：以JVT-G012r1为例

JCTVC-K0103码率控制算法实现

目标比特分配

GOP级比特分配

GOP级比特分配根据目标码率、缓冲区状态、信道速率为每个GOP分配码率。JCTVC-K0103码率控制算法根据每帧的平均比特数计算GOP的可用比特数，公式如下：
$T_g = \overline{T}_f \cdot N_G \tag{4.1}$
$\overline{T}_f = \frac{u}{F_r}+\frac{\frac{u}{F_r}\times N_{v,c}-R_{v,c}}{SW} \tag{4.2}$

其中：

u为信道速率
$F_r$ 为帧率
$N_{v,c}$ 为视频序列已编码总帧数
$R_{v,c}$ 为已编码帧消耗比特
SW为滑动窗口尺寸，用于平均比特波动，一般取值40

理解：

第一项 $\frac{u}{F_r}$ 为目标码率下平均每帧的比特数
第二项 $\frac{\frac{u}{F_r}\times N_{v,c}-R_{v,c}}{SW}$ 为已编码帧消耗比特与目标消耗比特之间的偏差，反映缓冲区充盈度，该项的目的在于根据缓冲区状态对GOP的目标比特进行修正。
SW反映了对于缓冲区状态的修正程度，较小SW容易导致GOP之间较大比特波动。

图像级目标比特分配

设GOP共有 $N_G$ 帧，第j帧的目标比特数为：
$T_f(j)=\beta\cdot\widetilde{T}_f(j) + (1-\beta)\cdot\hat{T}_f(j) \tag{4.3}$
$\widetilde{T}_f(j) = T_G \times \frac{\omega_f(j)}{\sum_{k=1}^{N_g}\omega_f(k)} \tag{4.4}$
$\hat{T}_f(j) = \frac{T_G - R_{G,c}}{\sum_{k=1}^{N_g}\omega_f(k)}\cdot\omega_f(j) \tag{4.5}$