PCS2021:基于CNN的后处理进行质量增强

本文来自PCS2021论文《Model Selection CNN-based VVC Quality Enhancement》

论文提出了适用于VVC的基于CNN的后处理方法来进行质量增强(QE),并且在编码端提供了多个训练好的模型,可以在帧级和块级使用模型选择(MS)策略选择最优的模型,并传到解码端。基于CNN的后处理方法在RA配置下BD-Rate增益为1.3%,加上MS策略又可以获得0.5%的BD-Rate增益。

质量增强算法

编码信息

时域、空域特征和带宽限制等能反映信号的特点,因此在论文的QE算法中利用了下面两个编码信息来帮助CNN更好的去除压缩失真:

1)QP map:QP通过控制量化步长来平衡视频的码率和失真。较大的QP会导致较长的量化步长,使得变换系数丢失更高高频信息从而降低码率同时引入更多失真。

在论文的QE算法中,会为每帧构建一个归一化的QP map,并将它和重建帧一起送入网络。对宽为W,高为H的帧,QP map  计算如下:

Q_{i,j}=\frac{q_{i,j} }{q_{max} }

   q_{max} 是最大的QP值,对于VVC即为63。对于CQP模式,整帧的QP map都为相同的常数;对于CBR模式,QP map中不同位置块处的值不同。

2)预测信号:重建信号由预测信号和残差信号相加得到。对于不同的编码方式(帧内或帧间),会有不同的预测方法:帧内、单向帧间、双向帧间、skip等。无论采用何种方式,论文的QE算法将预测信号作为第二个编码信息用于CNN中。且预测信号和重建帧尺寸一样,被一起送入CNN网络。

QE网络

网络结构如Fig.2所示,

  是连接后的输入信号,  是网络的输出。整个过程可用如下公式描述,

\hat{C}=F_{3}^{1} (F_{1}^{2}(B_{n}^{1}(F_{2}^{1}(Res^{N}(F_{1}^{1}(I) ) ) ) +F_{1}^{1}(I) ) )

    F_{1}(.)和  F_{2}(.)是3x3x256的卷积层,  F_{1}(.) 带有ReLU激活层, F_{2}(.) 不带。  F_{3}(.)是带ReLU的3x3x1的卷积层。上角标表示对应层在网络中连续重复的次数。 

基于上面的网络结构和编码信息,一共训练了4个模型。前两个模型 M_{intra}^{cqp} 和 M_{inter}^{cqp} 的输入是由重建信号C,QP map  和预测信号P连接而成,

I_{cqp}^{m} =C^{m}\oplus Q\oplus P^{m}

    \oplus表示连接操作,m表示模式(帧内或帧间)。另外两个模型  M_{intra}^{cq}和  M_{inter}^{cq}的输入不包含预测信号P, 

I_{cq}^{m}=C^{m}\oplus Q

 表1中是4个模型的详细信息。

模型使用L1损失函数,如下:

L_{1}(O,\hat{C} ) =\left | O-\hat{C} \right |

 模型选择MS

帧类型不同,预测信号也会有差别。对于I帧,所有块都采用帧内预测,而对于P/B帧既可能有帧内预测块也可能有帧间预测块。同一帧中可能存在不同类型的失真,需要不同的模型进行质量增强。因此,论文基于前面的4个模型提出帧级和CTB级模型选择MS。

在CTB级,使用前面的4个模型分别增强,选择MSE最小的,

M_{in^{*} }^{m^{*} }:(in^{*},m^{*} )=\underset{m,in}{argmin} MSE(\hat{C}_{in}^{m},O )

  为了告诉解码器使用了哪个模型,需要在码流中传输帧级和CTB级标志位。帧级标志位 f_{1} 表示码流中是否有CTB级标志位,如果  f_{1}=0则解码器根据帧类型使用默认模型  M_{cqp}^{intra}和 M_{cqp}^{inter} 。否则,根据CTB级标志位  f_{2}和 f_{3} 选择模型。

编码端MS过程如下,

整个QE流程如Fig.3所示,

实验结果

数据集和训练配置

使用BVI-DVC数据集训练网络,其中包含800条视频。DIV2K和Fliker2K数据集被用来训练帧内编码的帧,分别包含900和2650个高质量图片。这些视频和图像都被转为10bit 420格式,仅用亮度分量来训练模型。

为训练M_{cq}^{inter}  和 M_{cqp}^{inter} ,将视频使用VTM10编码,配置为RA (Main10 profile),QP={22, 27, 32, 37}。为训练  M_{cq}^{intra}和 M_{cqp}^{intra} ,DIV2K和Fliker2K数据集使用All Intra (AI)配置编码。最终,获得了16000个帧间和7500个帧内图像用于训练对应模型。

测试序列选用JVET CTC中的19条序列。

实验结果如表2所示,不带预测信息的QE、带预测信息的QE、带预测信息和MS的QE的BD-Rate增益分别为5.83%,7.16%,7.62%,可以看见添加预测信息后码率节省了1.33%,增加MS后又节省了0.46%的码率。

感兴趣的请关注微信公众号Video Coding

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值