端到端图像编码和VVC的结合

最新推荐文章于 2023-10-04 08:00:32 发布

Dillon2015

最新推荐文章于 2023-10-04 08:00:32 发布

阅读量1.4w

点赞数 1

分类专栏： H.266/VVC 深度学习视频编码文章标签：端到端图像编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dillon2015/article/details/126109735

版权

视频编码同时被 3 个专栏收录

216 篇文章 56 订阅

订阅专栏

155 篇文章 141 订阅

订阅专栏

31 篇文章 5 订阅

订阅专栏

本文来自JVET-AA0063的提案《A hybrid codec using E2E image coding combined with VVC video coding》

简介

提案提出了一种混合编码方法，对视频I帧使用端到端的图像编码器编码，P和B帧使用VVC编码，如Fig.1，其中P和B帧内的intra块还是使用VVC编码。基于神经网络的端到端图像编码器的效率已经超越传统的图像编码器，例如JPEG-AI的编码效率比VVC编码I帧高20-30%，但是视频比图像更复杂因此该提案只对I帧使用神经网络处理，P和B帧还是使用VVC。在VTM14.0上，RA配置下该方法在Y分量上的BD-Rate达到4.1%。

混合框架实现

该框架基于VTM14.0实现，VTM代码基本保持不变，对于I帧其对应的non-VCLU写入码流的方式不变，I帧对应的VCLU写入码流的方式如下：

通过python脚本调用端到端图像编码器。
图像编码器对I帧编码，并将重建图像写入临时yuv文件。
VVC编码器从日志文件收集图像编码器的bit cost信息。
VVC编码器读临时yuv文件并写入dpb。
通过步骤3、4，VVC能计算图像编码器生成图像的psnr和bit cost。

端到端图像编码器

这个E2E图像编码器是JPEG AI的变种，训练时损失函数使用MSE。模型输入针对420格式，而不是RGB444。模型结构如Fig.2，Y和UV独立编码，仅在处理流程的某些部分Y会作为UV的辅助信息（蓝色箭头）。绿色框内是熵编码网络。

实验结果

VTM14 RA配置的结果如表1，其中QP={32，37，42，47}，选择这些QP是为了使VVC的I帧码率和JPEG AI对齐。可以看见，对class A1、A2和B增益很大，因为图像编码器训练集都是高分辨率图像所以在高分辨率序列上表现更好，这也解释了class C和D增益为什么小。由于训练集不包含屏幕序列，所以class F损失较大。

表1的结果是所有I帧都使用E2E AI编码（无条件，不需要mulit-pass），也可以根据内容自适应决定是否对I帧使用AI编码，不过这需要mulit-pass，结果如表2。

主观对比

Fig4和Fig5是序列CatRobot使用QP 42编码的POC为31的帧，可以提案的方法右下角的兔子主观质量更好，而且POC31远离第一个I帧这也说明I帧质量的提升可以传导到后面的帧。

感兴趣的请关注微信公众号Video Coding

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。