点击我爱计算机视觉标星,更快获取CVML新技术
导读:图像视频压缩是传统多媒体技术的核心,也是一项牵动整个多媒体信息产业的基础技术。深度学习在该领域的成功运用,已经引起了不少IT巨头的关注。图鸭科技是国内少有的专注于深度学习图像视频压缩的初创公司,其创始团队也是CV君的几位前同事,在刚刚过去的CVPR 2019 CLIC 图像压缩挑战赛上,图鸭获得了 4 项冠军。本期CV君邀请图鸭科技对他们的获胜论文进行了解读,希望对做相关方向的朋友有所启发。
近年来随着人工智能技术的发展,基于深度学习的图像压缩技术已取得了飞速的发展。一种典型的基于深度学习的图像压缩框架包括:自编码网络结构设计、量化、码率估计和失真优化等几个模块。
本文将主要介绍图鸭科技在CVPR 2019 CLIC图像压缩挑战赛上的相关技术方案,针对于比赛所设置的低码点和高码点压缩两个赛道,我们基于变分自编码网络设计了可进行端到端优化的图像压缩方案。
该方案包括一个非线性编码网络、软量化模块、一个非线性解码网络和一个熵估计模块。我们技术方案的特色之处总结如下:
提出了基于全局特征分析的non-local注意力模块,并融合进编码网络和解码网络,以实现提升自适应码字分配性能的目的。
设计了一种基于自适应聚类的软量化方法以降低量化损失。
提出了能融合超先验子网络和基于pixel cnn++的上下文模型的码率估计模块。
得益于优良的网络结构和算法设计,我们所提出的算法TucodecSSIM夺得了MS-SSIM和MOS两项指标的冠军,算法TucodecPSNR夺得了PSNR指标的冠军,算法TucodecPSNR40dB则夺得高码点图像压缩指标的冠军。接下来将具体介绍我们的算法方案:
方法介绍
1. 编码网络和解码网络
我们的主干压缩自编码网络使用了如图1所示的非对称结构,它包括卷积、非线性单元和残差non-local注意力卷积等模块。
图1 编码和解码网络结构示意图
值得注意的是,通过使用残差non-local注意力模块来对特征的全局关联性进行捕捉和建模,图像中的纹理、边界等复杂部分能得到更好的重建。在kodak标准数据集上的实验表明,通过在编码和解码网络结构中融合non-local注意力模块,能在PSNR指标上带来0.6db的提升。
2. 量化
在现在的大部分方案中,取整量化是一种常用的方式。我们通过实验测评发现,这种直接将浮点数映射到整数的量化方式会极大的降低重建精度(PSNR指标至少降低0.5db, MS-SSIM指标降低至少1.5db)。
为了降低量化带来的精度损失,我们设计了一种基于自适应聚类的软量化方案,具体介绍如下:
给定可学习的中心点,可使用最近邻分配的方式来计算量化值: