CVPR 2019 CLIC 图像压缩挑战赛冠军方案解读

点击我爱计算机视觉标星,更快获取CVML新技术


导读:图像视频压缩是传统多媒体技术的核心,也是一项牵动整个多媒体信息产业的基础技术。深度学习在该领域的成功运用,已经引起了不少IT巨头的关注。图鸭科技是国内少有的专注于深度学习图像视频压缩的初创公司,其创始团队也是CV君的几位前同事,在刚刚过去的CVPR 2019 CLIC 图像压缩挑战赛上,图鸭获得了 4 项冠军。本期CV君邀请图鸭科技对他们的获胜论文进行了解读,希望对做相关方向的朋友有所启发。

近年来随着人工智能技术的发展,基于深度学习的图像压缩技术已取得了飞速的发展。一种典型的基于深度学习的图像压缩框架包括:自编码网络结构设计、量化、码率估计和失真优化等几个模块。

本文将主要介绍图鸭科技在CVPR 2019 CLIC图像压缩挑战赛上的相关技术方案,针对于比赛所设置的低码点和高码点压缩两个赛道,我们基于变分自编码网络设计了可进行端到端优化的图像压缩方案。

该方案包括一个非线性编码网络、软量化模块、一个非线性解码网络和一个熵估计模块。我们技术方案的特色之处总结如下:

  1. 提出了基于全局特征分析的non-local注意力模块,并融合进编码网络和解码网络,以实现提升自适应码字分配性能的目的。

  2. 设计了一种基于自适应聚类的软量化方法以降低量化损失。

  3. 提出了能融合超先验子网络和基于pixel cnn++的上下文模型的码率估计模块。

得益于优良的网络结构和算法设计,我们所提出的算法TucodecSSIM夺得了MS-SSIM和MOS两项指标的冠军,算法TucodecPSNR夺得了PSNR指标的冠军,算法TucodecPSNR40dB则夺得高码点图像压缩指标的冠军。接下来将具体介绍我们的算法方案:

方法介绍

1. 编码网络和解码网络

我们的主干压缩自编码网络使用了如图1所示的非对称结构,它包括卷积、非线性单元和残差non-local注意力卷积等模块。

图1 编码和解码网络结构示意图

值得注意的是,通过使用残差non-local注意力模块来对特征的全局关联性进行捕捉和建模,图像中的纹理、边界等复杂部分能得到更好的重建。在kodak标准数据集上的实验表明,通过在编码和解码网络结构中融合non-local注意力模块,能在PSNR指标上带来0.6db的提升。

2. 量化

在现在的大部分方案中,取整量化是一种常用的方式。我们通过实验测评发现,这种直接将浮点数映射到整数的量化方式会极大的降低重建精度(PSNR指标至少降低0.5db, MS-SSIM指标降低至少1.5db)。

为了降低量化带来的精度损失,我们设计了一种基于自适应聚类的软量化方案,具体介绍如下:

给定可学习的中心点,可使用最近邻分配的方式来计算量化值:

  

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值