VVC帧内预测补充：矩阵加权帧内预测（Matrix Weighted Intra Prediction, MIP）

最新推荐文章于 2022-04-08 15:10:31 发布

Aidoneus_y

最新推荐文章于 2022-04-08 15:10:31 发布

阅读量1.7k

点赞数 3

分类专栏： VVC/H.266学习日记文章标签： VVC 帧内预测 MIP

本文链接：https://blog.csdn.net/u012038173/article/details/90671165

版权

VVC/H.266学习日记专栏收录该内容

23 篇文章 85 订阅

订阅专栏

文章目录

1.矩阵加权帧内预测（MIP）
2. 预测过程示例

本博客追踪VTM-5.0中对帧内预测的改进。在VTM-5.0中，主要变化是增加了MIP预测技术；同时对帧内各种预测工具统一了MPM列表。

1.矩阵加权帧内预测（MIP）

Tracking route: N0217 -> M0043 -> L0199 -> K0196 -> J0037

VTM 5.0版本更新的帧内预测技术MIP，其最初的思想来源于基于神经网络的帧内预测技术（JVET-J0037），即利用多层神经网络基于相邻已重建像素预测当前pu像素值。但是这种预测方式复杂度太高，经过权衡，发展出最后采纳的基于线性仿射变换的帧内预测技术。其主要流程如下
帧内预测角度
首先，要预测一个尺寸为WxH的PU，其预测参考为上方W个、左侧H个已重建像素，重建像素的获取和传统帧内预测相同。然后利用这（W+H）个像素，经过平均、仿射变换和上采样三个步骤得到最终预测值。

1.1 参考像素预处理：平均

此步骤的主要目的是对参考像素尺寸进行归一化，对于 $4\times4$ 的PU归一化为4个像素，其他情况归一化为8个像素，即对输入的长参考边界像素 $bdry^{top}$ 和 $bdry^{left}$ 依据编码单元尺寸转化为短边界参考像素 $bdry_{red}^{top}$ 和 $bdry_{red}^{left}$ ，以减少预测过程中的计算量和模型参数存储空间。然后将平均转化后的左、上短参考concat成一个向量 $bdry_{red}$ ，连接的方式如下：
$\begin{cases} [bdry_{red}^{top}, bdry_{red}^{left}], & \text{if $W=H=4$ \& $mode<18$} \\ [bdry_{red}^{left} , bdry_{red}^{top}], & \text{if $W=H=4$ \& $mode \geq 18$} \\ [bdry_{red}^{top}, bdry_{red}^{left}], & \text{if $max⁡(W,H)=8$ \& $mode<10$} \\ [bdry_{red}^{left} , bdry_{red}^{top}], & \text{if $max⁡(W,H)=8$ \& $mode \geq 10$} \\ [bdry_{red}^{top}, bdry_{red}^{left}], & \text{if $max⁡(W,H)>8$ \& $mode<6$} \\ [bdry_{red}^{left} , bdry_{red}^{top}], & \text{if $max⁡(W,H)>8$ \& $mode \geq 6$} \end{cases}$

1.2 矩阵加权预测：仿射变换

仿射变换即对信号进行一个线性变换接上一个平移。

MIP预测像素的生成是对平均后的参考像素进行矩阵加权，然后加上偏移，即线性仿射变换。预测值为目标预测值的下采样信号 $pred_{red}$ ，其尺寸为 $W_{red}\times H_{red}$ ，其中 $W_{red}$ 和 $H_{red}$ 定义如下

$W_{red}= \begin{cases} 4, & \text {if $max(W,H)≤8$ } \\ min(W,8), & \text{if $max(W,H)>8$ } \end{cases}$
$H_{red}= \begin{cases} 4, & \text {if $max(W,H)≤8$ } \\ min(H,8), & \text{if $max(W,H)>8$ } \end{cases}$
仿射变换生成预测信号的过程可以表示为
$pred_{red} = A \cdot bdry_{red}+b$
其中 $A$ 是一个 $(W_{red}\cdot H_{red})\times (W==4\&H==4 ? 4 : 8)$ 的矩阵， $b$ 为尺寸为 $(W_{red}\cdot H_{red})$ 的向量。实际应用时， $A$ 和 $b$ 已依据单元尺寸预先设定好，存储在三个参数集中 $S_0, S_1, S_2$ ，索引与PU尺寸相关，如下

$\begin{cases} 0, & \text{if $W=H=4$ } \\ 1, & \text{if $max⁡(W,H)=8$ } \\ 2, & \text{if $max⁡(W,H)>8$} \\ \end{cases}$
$S_0, S_1, S_2$ 分别有18、10和6组参数。

1.3 上采样

1.2中产生的是目标预测信号的下采样信号，目标预测信号的剩余值，通过简单的单步线性插值得到。根据PU单元尺寸，可能需要进行水平差值、垂直插值或者两个方向都需要插值，如果两个方向都需要插值，对于W<H的块首先进行水平差值，否则首先进行垂直插值。
以垂直插值为例，首先定义上采样因子 $U_{ver} = H/H_{red}$ ，其中 $U_{ver} = 2^{u_{ver}}>1$ 。然后对参考信号进行扩展，向上扩展一行，扩展参考像素取值如下
$pred_{red}[x][-1]= \begin{cases} bdry_{red}^{top}[x], & \text{if $W=8$ } \\ bdry_{redII}^{top}[x], & \text{if $W>8$ } \end{cases}$
这里$ bdry_{redII}^{top}[x]$是因为大尺寸单元需要进行两次下采样，两次下采样之后的信号。最终插值信号通过下式计算
$Pred_{red}^{ups,ver}[x][U_{ver} \cdot y + k] = ((U_{ver} - k - 1) \cdot pred_{red}[x][y-1] + (k+1)\cdot pred_{red}[x][y] + \frac {U_{ver}}{2}) >> u_{ver}$
其中 $0≤x<W_{red}$ ， $0≤y<H_{red}$ ， $0≤k<U_{ver}$ 。

插值改进- 只用移位操作 ：
对于垂直方向的线性插值，首先对上下预测值进行加权，计算方式如下
$pred_{red}^{above}[x][y][k] = \begin{cases} pred_{red}[x][y-1]<<u_{ver} - pred_{red}[x][y-1], & \text{if $k=0$ } \\ pred_{red}^{top}[x][y][k-1] - pred_{red}[x][y-1], & \text{if $k>0$ } \end{cases}$

$pred_{red}^{below}[x][y][k] = \begin{cases} pred_{red}[x][y], & \text{if $k=0$ } \\ pred_{red}^{below}[x][y][k-1] - pred_{red}[x][y], & \text{if $k>0$ } \end{cases}$
使用相邻的加权参考，于是垂直上采样可以写成以下形式:
$Pred_{red}^{ups,ver}[x][y<<U_{ver} + k] = ( pred_{red}^{above}[x][y][k] + pred_{red}^{below}[x][y][k] + (1 << (u_{ver} - 1))) >> 2$
水平方向插值可用相同的方式得出。

1.4 MIP模式和预测模式传输

VTM中根据CU尺寸，最多支持35中MIP预测模式。具体来说，对于 $\& W*H < 32$ 尺寸的CU支持35种预测模式， $m a x (W, H) = 8$ 和 $m a x (W, H) > 8$ 分别有19和11种预测模式。为了减少不同模式存储时的内存占用，两种模式可能会共用Metrix和offset，具体共用模式情况如下
$\begin{cases} mode, & \text{if $W=H=4$ \& $mode<18$} \\ mode-17 , & \text{if $W=H=4$ \& $mode \geq 18$} \\ mode, & \text{if $max⁡(W,H)=8$ \& $mode<10$} \\ mode-9 , & \text{if $max⁡(W,H)=8$ \& $mode \geq 10$} \\ mode, & \text{if $max⁡(W,H)>8$ \& $mode<6$} \\ mode-5, & \text{if $max⁡(W,H)>8$ \& $mode \geq 6$} \end{cases}$
不同模式的模型参数即存储在上文 $S_0, S_1, S_2$ 中，参数集由尺寸决定，m由码流中标识。最终实际使用模型参数为 $A=A_{idx}^m$ 和 $b=b_{idx}^m$ 。

为降低模式传输消耗带宽资源，具体模式编码策略如下：
对于帧内编码CU，首先需要1bit标志位表明是否采用MIP模式，如果采用，额外1bit标识模式是否在MPM中，MIP支持3个MPM模式。MPM模式采用上下文截断二进制编码，非MPM模式采用定长编码。MPM的生成和传统帧内保持一致，MIP模式的获取通过预定义的映射表由传统帧内模式映射得出，如下。

$predmode]_{Angular}= map\_alwip\_to\_angular_{idx}[predmode_{Angular}]$

const uint8_t g_mapMipToAngular65[3][MAX_NUM_MIP_MODE] =
{
  {  0, 18, 18,  0, 18,  0, 12,  0, 18,  2, 18, 12, 18, 18,  1, 18, 18,  0,  0, 50,  0, 50,  0, 56,  0, 50, 66, 50, 56, 50, 50,  1, 50, 50, 50 },
  {  0,  1,  0,  1,  0, 22, 18, 18,  1,  0,  1,  0,  1,  0, 44,  0, 50,  1,  0 },
  {  1,  1,  1,  1, 18,  0,  1,  0,  1, 50,  0 },
};
const uint8_t g_mapAngular33ToMip[3][35] =
{
  { 17, 17, 17,  9,  9,  9,  9, 17, 17, 17, 17, 17, 17, 17,  5,  5,  5,  5, 34, 22, 22, 22, 22, 34, 34, 34, 34, 34, 34, 34, 26, 26, 26, 26, 26 },
  {  0,  0, 10, 10, 10, 10, 10,  4,  6,  7,  7,  7,  5,  5,  0,  0,  3,  3, 12, 12, 12, 12, 14, 14, 14, 16, 16, 16, 15, 13,  1,  1,  1,  1,  1 },
  {  5,  1,  3,  3,  3,  3,  0,  0,  0,  4,  4,  4,  5,  1,  1,  1,  1,  1,  6,  6,  6,  6,  6, 10, 10,  9,  9,  9,  9,  9,  8,  8,  8,  8,  8 },
};