PCS2021：基于CNN的后处理进行质量增强

最新推荐文章于 2023-04-11 13:02:43 发布

Dillon2015

最新推荐文章于 2023-04-11 13:02:43 发布

阅读量2.6w

点赞数 2

分类专栏： H.266/VVC 视频编码文章标签： VVC QE 质量增强后处理

本文链接：https://blog.csdn.net/Dillon2015/article/details/120960927

版权

视频编码同时被 2 个专栏收录

216 篇文章

订阅专栏

H.266/VVC

155 篇文章

订阅专栏

本文来自PCS2021论文《Model Selection CNN-based VVC Quality Enhancement》

论文提出了适用于VVC的基于CNN的后处理方法来进行质量增强（QE），并且在编码端提供了多个训练好的模型，可以在帧级和块级使用模型选择（MS）策略选择最优的模型，并传到解码端。基于CNN的后处理方法在RA配置下BD-Rate增益为1.3%，加上MS策略又可以获得0.5%的BD-Rate增益。

质量增强算法

编码信息

时域、空域特征和带宽限制等能反映信号的特点，因此在论文的QE算法中利用了下面两个编码信息来帮助CNN更好的去除压缩失真：

1）QP map：QP通过控制量化步长来平衡视频的码率和失真。较大的QP会导致较长的量化步长，使得变换系数丢失更高高频信息从而降低码率同时引入更多失真。

在论文的QE算法中，会为每帧构建一个归一化的QP map，并将它和重建帧一起送入网络。对宽为W，高为H的帧，QP map 计算如下：

$Q_{i,j}=\frac{q_{i,j} }{q_{max} }$

$q_{max}$ 是最大的QP值，对于VVC即为63。对于CQP模式，整帧的QP map都为相同的常数；对于CBR模式，QP map中不同位置块处的值不同。

2）预测信号：重建信号由预测信号和残差信号相加得到。对于不同的编码方式（帧内或帧间），会有不同的预测方法：帧内、单向帧间、双向帧间、skip等。无论采用何种方式，论文的QE算法将预测信号作为第二个编码信息用于CNN中。且预测信号和重建帧尺寸一样，被一起送入CNN网络。

QE网络

网络结构如Fig.2所示，

是连接后的输入信号，是网络的输出。整个过程可用如下公式描述，

$\hat{C}=F_{3}^{1} (F_{1}^{2}(B_{n}^{1}(F_{2}^{1}(Res^{N}(F_{1}^{1}(I) ) ) ) +F_{1}^{1}(I) ) )$

$F_{1}(.)$ 和 $F_{2}(.)$ 是3x3x256的卷积层， $F_{1}(.)$ 带有ReLU激活层， $F_{2}(.)$ 不带。 $F_{3}(.)$ 是带ReLU的3x3x1的卷积层。上角标表示对应层在网络中连续重复的次数。

基于上面的网络结构和编码信息，一共训练了4个模型。前两个模型 $M_{intra}^{cqp}$ 和 $M_{inter}^{cqp}$ 的输入是由重建信号C，QP map 和预测信号P连接而成，

$I_{cqp}^{m} =C^{m}\oplus Q\oplus P^{m}$

$\oplus$ 表示连接操作，m表示模式（帧内或帧间）。另外两个模型 $M_{intra}^{cq}$ 和 $M_{inter}^{cq}$ 的输入不包含预测信号P,

$I_{cq}^{m}=C^{m}\oplus Q$

表1中是4个模型的详细信息。

模型使用L1损失函数，如下：

$L_{1}(O,\hat{C} ) =\left | O-\hat{C} \right |$

模型选择MS

帧类型不同，预测信号也会有差别。对于I帧，所有块都采用帧内预测，而对于P/B帧既可能有帧内预测块也可能有帧间预测块。同一帧中可能存在不同类型的失真，需要不同的模型进行质量增强。因此，论文基于前面的4个模型提出帧级和CTB级模型选择MS。

在CTB级，使用前面的4个模型分别增强，选择MSE最小的，

$M_{in^{*} }^{m^{*} }:(in^{*},m^{*} )=\underset{m,in}{argmin} MSE(\hat{C}_{in}^{m},O )$

为了告诉解码器使用了哪个模型，需要在码流中传输帧级和CTB级标志位。帧级标志位 $f_{1}$ 表示码流中是否有CTB级标志位，如果 $f_{1}=0$ 则解码器根据帧类型使用默认模型 $M_{cqp}^{intra}$ 和 $M_{cqp}^{inter}$ 。否则，根据CTB级标志位 $f_{2}$ 和 $f_{3}$ 选择模型。

编码端MS过程如下，

整个QE流程如Fig.3所示，

实验结果

数据集和训练配置

使用BVI-DVC数据集训练网络，其中包含800条视频。DIV2K和Fliker2K数据集被用来训练帧内编码的帧，分别包含900和2650个高质量图片。这些视频和图像都被转为10bit 420格式，仅用亮度分量来训练模型。

为训练 $M_{cq}^{inter}$ 和 $M_{cqp}^{inter}$ ，将视频使用VTM10编码，配置为RA (Main10 profile)，QP={22, 27, 32, 37}。为训练 $M_{cq}^{intra}$ 和 $M_{cqp}^{intra}$ ，DIV2K和Fliker2K数据集使用All Intra (AI)配置编码。最终，获得了16000个帧间和7500个帧内图像用于训练对应模型。