论文:Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Attention Modules
概要:
基于深度学习的图像压缩方法近几年迎来了快速的发展,但在基于学习的压缩算法和现行压缩标准之间仍然存在性能差距,尤其是在广泛使用的PSNR指标上。本篇论文探讨了最近的可学习的图像压缩算法中仍存在的问题,作者发现准确的熵估计模型影响着模型的参数优化,进而影响rate-distortion optimization的性能。因此,作者提出使用离散的高斯混合似然来参数化潜在表示的分布,可以获得更准确和灵活的概率模型。此外,作者还使用attention module来提高网络对图像中复杂区域的关注能力。实验表明,,本方法是第一篇可以在PSNR指标上达到VVC的intra压缩性能的工作。同时,由MSSSIM优化的模型可以生成视觉效果更好的复原图像。
论文地址:
Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Attention Modulesarxiv.org代码地址:
https://github.com/ZhengxueCheng/Learned-Image-Compression-with-GMM-and-Attentiongithub.com主要方法:
首先,作者回溯了近几年在learned image compression上取得的进展,尤其是以hyperprior和起变形结构为代表的熵估计模型(如下图的(b)(c)所示),很大程度地提高了压缩性能。
在此基础上,作者发现仅估计单个均值仍然无法获得更准确的估计,可视化结果如Fig. 2所示,由此,作者提出使用离散高斯混合模型来对latent representation进行熵估计,这样可以对y提供多个最可能的均值,而每一个mixture的方差可以更小,达到的效果是实现更准确的概率模型,节约编码y所需要的比特数。
第二,作者还加入了简化版的attention modules,可以提高网络对于non-zero responses,即复杂区域的关注,同时不引入过多的训练复杂度。综上所示,整体的网络结构如Fig.3所示。
实验结果:
作者在Kodak和CLIC validation两个数据集上进行了测试。在Kodak数据机上,PSNR的表现可以与VVC intra压缩的性能相匹敌,远超HEVC-intra的压缩算法,并且达到了state-of-the-art的压缩性能,RD曲线如下图所示。
同时作者还给出了可视化的结果,显示MS-SSIM优化的模型可以生成视觉效果更好的图片。
最后,如果这篇文章对你的研究有帮助的话,欢迎引用!
@inproceedings{cheng2020image,
title={Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Attention Modules},
author={Cheng, Zhengxue and Sun, Heming and Takeuchi, Masaru and Katto, Jiro},
booktitle= "Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)",
year={2020}
}