端到端图像编码和VVC的结合

155 篇文章 138 订阅
31 篇文章 5 订阅

本文来自JVET-AA0063的提案《A hybrid codec using E2E image coding combined with VVC video coding》

简介


提案提出了一种混合编码方法,对视频I帧使用端到端的图像编码器编码,P和B帧使用VVC编码,如Fig.1,其中P和B帧内的intra块还是使用VVC编码。基于神经网络的端到端图像编码器的效率已经超越传统的图像编码器,例如JPEG-AI的编码效率比VVC编码I帧高20-30%,但是视频比图像更复杂因此该提案只对I帧使用神经网络处理,P和B帧还是使用VVC。在VTM14.0上,RA配置下该方法在Y分量上的BD-Rate达到4.1%。

混合框架实现


该框架基于VTM14.0实现,VTM代码基本保持不变,对于I帧其对应的non-VCLU写入码流的方式不变,I帧对应的VCLU写入码流的方式如下:

  1. 通过python脚本调用端到端图像编码器。

  2. 图像编码器对I帧编码,并将重建图像写入临时yuv文件。

  3. VVC编码器从日志文件收集图像编码器的bit cost信息。

  4. VVC编码器读临时yuv文件并写入dpb。

  5. 通过步骤3、4,VVC能计算图像编码器生成图像的psnr和bit cost。

端到端图像编码器


这个E2E图像编码器是JPEG AI的变种,训练时损失函数使用MSE。模型输入针对420格式,而不是RGB444。模型结构如Fig.2,Y和UV独立编码,仅在处理流程的某些部分Y会作为UV的辅助信息(蓝色箭头)。绿色框内是熵编码网络。

实验结果

VTM14 RA配置的结果如表1,其中QP={32,37,42,47},选择这些QP是为了使VVC的I帧码率和JPEG AI对齐。可以看见,对class A1、A2和B增益很大,因为图像编码器训练集都是高分辨率图像所以在高分辨率序列上表现更好,这也解释了class C和D增益为什么小。由于训练集不包含屏幕序列,所以class F损失较大。

表1的结果是所有I帧都使用E2E AI编码(无条件,不需要mulit-pass),也可以根据内容自适应决定是否对I帧使用AI编码,不过这需要mulit-pass,结果如表2。

主观对比

Fig4和Fig5是序列CatRobot使用QP 42编码的POC为31的帧,可以提案的方法右下角的兔子主观质量更好,而且POC31远离第一个I帧这也说明I帧质量的提升可以传导到后面的帧。

感兴趣的请关注微信公众号Video Coding

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值