CVPR 2019 CLIC 图像压缩挑战赛冠军方案解读

最新推荐文章于 2022-11-11 15:10:40 发布

我爱计算机视觉

最新推荐文章于 2022-11-11 15:10:40 发布

阅读量820

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/106666952

版权

点击我爱计算机视觉标星，更快获取CVML新技术

导读：图像视频压缩是传统多媒体技术的核心，也是一项牵动整个多媒体信息产业的基础技术。深度学习在该领域的成功运用，已经引起了不少IT巨头的关注。图鸭科技是国内少有的专注于深度学习图像视频压缩的初创公司，其创始团队也是CV君的几位前同事，在刚刚过去的CVPR 2019 CLIC 图像压缩挑战赛上，图鸭获得了 4 项冠军。本期CV君邀请图鸭科技对他们的获胜论文进行了解读，希望对做相关方向的朋友有所启发。

近年来随着人工智能技术的发展，基于深度学习的图像压缩技术已取得了飞速的发展。一种典型的基于深度学习的图像压缩框架包括：自编码网络结构设计、量化、码率估计和失真优化等几个模块。

本文将主要介绍图鸭科技在CVPR 2019 CLIC图像压缩挑战赛上的相关技术方案，针对于比赛所设置的低码点和高码点压缩两个赛道，我们基于变分自编码网络设计了可进行端到端优化的图像压缩方案。

该方案包括一个非线性编码网络、软量化模块、一个非线性解码网络和一个熵估计模块。我们技术方案的特色之处总结如下：

提出了基于全局特征分析的non-local注意力模块，并融合进编码网络和解码网络，以实现提升自适应码字分配性能的目的。
设计了一种基于自适应聚类的软量化方法以降低量化损失。
提出了能融合超先验子网络和基于pixel cnn++的上下文模型的码率估计模块。

得益于优良的网络结构和算法设计，我们所提出的算法TucodecSSIM夺得了MS-SSIM和MOS两项指标的冠军，算法TucodecPSNR夺得了PSNR指标的冠军，算法TucodecPSNR40dB则夺得高码点图像压缩指标的冠军。接下来将具体介绍我们的算法方案：

方法介绍

1. 编码网络和解码网络

我们的主干压缩自编码网络使用了如图1所示的非对称结构，它包括卷积、非线性单元和残差non-local注意力卷积等模块。

图1 编码和解码网络结构示意图

值得注意的是，通过使用残差non-local注意力模块来对特征的全局关联性进行捕捉和建模，图像中的纹理、边界等复杂部分能得到更好的重建。在kodak标准数据集上的实验表明，通过在编码和解码网络结构中融合non-local注意力模块，能在PSNR指标上带来0.6db的提升。

2. 量化

在现在的大部分方案中，取整量化是一种常用的方式。我们通过实验测评发现，这种直接将浮点数映射到整数的量化方式会极大的降低重建精度(PSNR指标至少降低0.5db, MS-SSIM指标降低至少1.5db)。

为了降低量化带来的精度损失，我们设计了一种基于自适应聚类的软量化方案，具体介绍如下：

给定可学习的中心点，可使用最近邻分配的方式来计算量化值：

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
CVPR 2019 CLIC 图像压缩挑战赛冠军方案解读

点击我爱计算机视觉标星，更快获取CVML新技术导读：图像视频压缩是传统多媒体技术的核心，也是一项牵动整个多媒体信息产业的基础技术。深度学习在该领域的成功运用，已经引起了不少IT巨头的关注...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。