VCIP2020：不同尺寸块基于神经网络的帧内预测

最新推荐文章于 2022-07-26 22:57:16 发布

Dillon2015

最新推荐文章于 2022-07-26 22:57:16 发布

阅读量3.5w

点赞数 1

分类专栏：深度学习视频编码 h.265/hevc 文章标签： FCN CNN NM 帧内预测

本文链接：https://blog.csdn.net/Dillon2015/article/details/116773245

版权

视频编码同时被 3 个专栏收录

215 篇文章 51 订阅

订阅专栏

h.265/hevc

66 篇文章 23 订阅

订阅专栏

深度学习

31 篇文章 5 订阅

订阅专栏

本文来自VCIP2020论文《Fully Neural Network Mode Based Intra Prediction of Variable Block Size》

论文提出使用神经网络模型（ neural network modes，NM）完全取代传统的帧内预测方法，不再需要通过邻域像素插值得到预测值，而是直接将相邻块作为网络输入得到预测块。（1）针对不同尺寸块使用不同模型，对于较小的块如4x4和8x8块使用全连接神经网络FNN，对于较大的块如16x16和32x32块使用CNN。（2）对于每个传统帧内预测模式都使用一个预训练网络模型取代它。

基于NN的帧内预测

HEVC帧内预测模式

HEVC的帧内预测有35种模式，对于模式的编码采用MPM（MPM有3个候选项），首先使用1比特表示最优模式是否在MPM中，如果在MPM中则使用1个或2个比特编码其在MPM中的索引，否则使用5比特编码（在剩余32种模式中）。如表1所示。

网络结构分析

对于4x4和8x8的块使用FCN，如图Fig.1，首先将邻域块拉平为一维向量（(4xN+8)x8）个节点。然后通过4个FC层，最后得到NxN的块。其中每层的节点数取决于编码增益和复杂度，编码增益用PSNR度量，复杂度用FLOPs度量，结果如表2。基线模型使用512个节点，然后逐次减半。发现当节点减为256和128时编码损失很小，减小为64时4x4的块损失0.21dB，8x8的块损失0.34dB。所以最终选择128个节点。

对于16x16和32x32块使用CNN，如Fig.2。为了保留空域信息，上方3个块，左侧2个块分别送入两个卷积通路。卷积通路的组成如表3，对16x16和32x32块分别使用4个和5个卷积层，激活函数为PReLU，F为16。每个通路使用降采样来获取潜在信息，然后拉平为一维向量。两个一维向量连接在一起送入FC层，FC层输出节点数是输入层的1/5。然后reshape成二维向量，通过反卷积层上采样为原始尺寸NxN。

编码结构

一共有35个NM，根据以下步骤选择最优的NM。1）根据SATD cost选择几个候选项，4x4和8x8块的候选项数量是8，其他尺寸是3。2）MPM也加进候选列表。3）通过比较RD cost选择最优的NM。

表1是HEVC帧内模式传输的方法，它是根据概率设定的，是最优模式的概率越高码字越短。下面式中BM表示最优模式，MPM中模式的码字长度比Non-MPM短，在MPM中MPM0的码字长度比其他模式短1比特。

公式（1）（2）是针对HEVC传统帧内模式。为了确保该模式传输方法也适用于35个NM，分析RaceHorses序列（QP=32）的最优模式概率分布，如表4。

可见最优模式在MPM中的概率是59.9%，大于在Non-MPM中的概率。最优模式是MPM0的概率又大于是MPM1和MPM2的概率。

在构建MPM时，当MPM0和MPM1不同时，MPM2选择Planar、DC和垂直模式之一。

训练

训练过程可以看作是从参考块R到原始块Y的回归过程，网络参数是theta。损失函数如下，由MSE和正则项组成。

lambda=0.0005，M=16。

训练集为New York city library，每个图像使用4个QP（22，27，32，37）编码。训练过程如下，

实验结果

实验平台采用HM16.9，每条序列使用AI配置且只编码第一帧，QP={22,27,32,37}。结果如表5，YUV的BD-rate增益分别为3.55%，3.03%和3.27%。

感兴趣的请关注微信公众号Video Coding

Dillon2015

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
VCIP2020：不同尺寸块基于神经网络的帧内预测

本文来自VCIP2020论文《Fully Neural Network Mode Based Intra Prediction of Variable Block Size》论文提出使用神经网络模型（ neural network modes，NM）完全取代传统的帧内预测方法，不再需要通过邻域像素插值得到预测值，而是直接将相邻块作为网络输入得到预测块。（1）针对不同尺寸块使用不同模型，对于较小的块如4x4和8x8块使用全连接神经网络FNN，对于较大的块如16x16和32x32块使用CNN。（2...
复制链接

扫一扫

专栏目录