ICME2021:基于CNN的HEVC帧内编码块快速划分

本文来自ICME2021论文《CNN-BASED DEPTH MAP PREDICTION FOR FAST BLOCK PARTITIONING IN HEVC INTRA CODING  》

在HM中,通过递归调用RDO来选择最优的划分模式,整个过程计算复杂度很高且硬件实现不友好。论文使用CNN为HEVC的帧内编码生产深度图来进行快速划分。

论文提出使用深度图来表示CTU的划分,如Fig.1(b)深度图是一个8x8的矩阵,矩阵中每个元素代表64x64CTU的每个8x8块的深度。从Fig.1可以发现,深度图可以反映图像局部纹理的复杂度。论文设计了一个CNN模型来预测深度图,模型以CTU的亮度分量作为输入。得到深度图后CTU的划分结构就确定了,编码器可以跳过RDO过程直接处理每个CU。整个算法的流程如Fig.2所示。

深度图预测网络

本文设计了一个基于CNN的深度图预测网络,网络结构如Fig.3所示,网络以CTU的亮度通道作为输入,输出一个8x8的深度图。

网络的第1部分包括5个卷积层和3个池化层。然后是最大池化操作,pooling kernel尺寸分别我2,4,8,再加上未池化的特征共得到4个特征,反映了不同尺度的特征,这部分称为多池化层。3个池化的特征上采样后和为池化特征连接送到下一层。网络接下来的部分包含4个卷积层。除了输出层外所有的卷积层都使用ReLU。

损失函数

实验结果

数据集

数据集中的视频序列来自CDVL,分辨率包括{3840x2160,1920x1080,1280x720},还有部分DIV2K中的图像,分辨率为1920x1080。

考虑到视频的时域相关性,训练序列每隔40帧取1帧。同时对DIV2K中的图像降采样到960x640和448x320以获得低分辨率数据。通过这种方式增加训练集的多样性。

所有的序列和图像使用HM16.20的AI配置编码,QP取{22,27,32,37}。编码过程中收集深度图,同时提取序列和图像的亮度分量并划分为64x64的块。最终数据集对4个QP包含764800个训练样本和78500个测试样本。

实验结果

由表3实验结果可知,在BD-Rate损失2.02%情况下,本文算法可以节省65.55%的编码时间,其中编码时间包括了CNN网络执行的时间。

感兴趣的请关注微信公众号Video Coding

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值