JVET-T0094
本提案提出了一种基于深度学习的环内滤波器。提出的环路滤波器位于Deblock和SAO级之间。基于VTM9.0的实现,对于AI和RA配置,所提出的基于深度学习的滤波器的平均{Y,U,V}BDbdrate性能分别为{-4.99%,-16.39%,-17.34%}和{-3.92%,-18.09%,-16.93%}。
如下图所示,所提出的NN Filter位于DB和SAO之间。
网络结构
所提出的神经网络结构如图(a)所示,结构包括残差块(RB)和二维上采样卷积。网络的输入为YUV三分量,首先将色度样本通过二维卷积从64x64上采样到128x128,然后与亮度样本级联,形成3x128x128的输入。
在图(b)中,残差块RB包含两个具有K个输入/输出特征的3x3卷积核。在本提案中,N和K分别被设置为20和64。
训练
在本提案中,在训练过程中使用了DIV2K数据集。原始RGB图像转换成YUV420格式后,采用AI配置的VTM9.0进行编码和解码。训练的QP为22、27、32和37。然后将重建图像分割成128x128亮度和64x64色度块。在训练过程中,batch大小设置为8。训练过程的epoch是20。
实验
提出的基于神经网络的环路内滤波器在VTM9.0中实现,具有CTU和帧级标志。如果“frame level”的标志关闭,则当前帧中的所有CTU不会使用提出的滤波器。如果开启帧级别的标志,则会发出CTU level的flag,以指示是否应用了提出的滤波器。
- Anchor:VTM9.0
- 每个序列只使用前2帧
- Anchor和测试都是在CPU中生成的