TCSVT-2019-基于卷积神经网络的增强双向预测

最新推荐文章于 2023-11-12 17:59:05 发布

涵小呆

最新推荐文章于 2023-11-12 17:59:05 发布

阅读量1.8k

点赞数

分类专栏：视频编码文章标签： cnn 人工智能神经网络视频编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BigDream123/article/details/122439241

版权

视频编码专栏收录该内容

30 篇文章 31 订阅

订阅专栏

本文来自TCSVT 2019的论文《Enhanced Bi-Prediction With Convolutional Neural Network for High-Efficiency Video Coding》

介绍

传统的平均加权运动补偿是基于时域匀速运动和空域匀速运动的假设，无法很好地描述旋转、仿射变换和变形等不规则运动；此外，传统的加权预测是pixel-to-pixel级别的预测，与patch-to-patch级别的预测对比如下图所示，可以清楚的看出patch-to-patch利用的信息比pixel-to-pixel利用信息更多，传统加权预测方法存在很大改进空间。

本文提出采用基于CNN的融合方法来提高预测精度，如下图所示，使用CNN来替代传统的平均加权预测方法。

网络结构

网络结构如下所示，输入是前向预测块和后向预测块，网络输出为融合后的预测块。网络共6层卷积层，前五层采用Relu激活函数，并使用skip connection残差连接两个预测块的平均值。

损失函数：MSE Loss

在HEVC中集成方法

对于Merge模式，由于Merge候选可能运动信息不准确，因此在率失真优化选择最佳候选MV时使用线性平均加权，选出最佳候选后使用CNN加权；对于AMVP模式，仅在运动估计后的加权预测使用CNN加权。

尽管HEVC中帧间编码块具有各种大小和非对称分区，但是根据统计数据，在双向预测中，大小为64×64、32×32和16×16的Pus area占总area的75%，因此本文将网络应用于大小分别为64×64、32×32和16×16亮度分量的预测单元。

实验

本文针对不同Qp训练不同的模型，并对于训练数据集，采用两种数据扩充方法：

1. 下采样，双三次插值

2. 以小于CTU大小的步长移动帧，以生成不同的CTU划分，提高编码块的多样性

训练数据来自于HM16.15解码器，并将两个方向的预测值归一化到[0,1]作为网络的输入。

本文还针对网络的是否用skip connect结构、卷积核尺寸、卷积核数、卷积层数进行消融实验对比。

将网络集成到HM-16.15参考软件的性能如下图所示：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
TCSVT-2019-基于卷积神经网络的增强双向预测

本文来自TCSVT 2019的论文《Enhanced Bi-Prediction With Convolutional Neural Network for High-Efficiency Video Coding》介绍传统的平均加权运动补偿是基于时域匀速运动和空域匀速运动的假设，无法很好地描述旋转、仿射变换和变形等不规则运动；此外，传统的加权预测是pixel-to-pixel级别的预测，与patch-to-patch级别的预测对比如下图所示，可以清楚的看出patch-to-patch可用的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。