图像压缩之《Discernible Compressed Images via Deep Perception Consistency》

最新推荐文章于 2024-10-15 17:13:16 发布

凤舞九天cw

最新推荐文章于 2024-10-15 17:13:16 发布

阅读量435

点赞数

分类专栏：图像与视频压缩

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_17464457/article/details/104452241

版权

图像与视频压缩专栏收录该内容

5 篇文章

订阅专栏

论文地址：https://arxiv.org/pdf/2002.06810.pdf

代码地址：暂未公布

摘要

传统的图像压缩方法都是通过最小化原图像与压缩图像之间的外观差异，而较少的去注意其在其他视觉任务上的功效，比如图像识别与目标检测。本文旨在通过要求外观和感知一致性来压缩图像，基于编解码架构，作者提出使用一个预训练的CNN模型来提取原图像和压缩图像的特征并使用最大均值差异来最小化两种特征之间分布的差异。这样可以使图像压缩模型保持较高的图像质量，同时在特征域保持感知一致性，如此可以提高图像识别和检测等领域的表现。

感知一致性图像压缩模型

本文方法的基本结构如下图所示；

作者使用一个训练好的网络作为感知来同时处理原图像与压缩图像，这样考虑到失真表现和感知一致性，其优化目标为：

其中lambda为平衡参数，F()为感知模型；

特征分布优化

优于感知模型会提取高维特征，直接最小化特征之间的差异很困难，所以作者使用最大均值差异(Maximun mean discrepancy, MMD)来监督压缩任务。MMD是通过在核空间中映射样本数据来描述两种分布的差异。

假设给定具有n张图像的数据集，图像特征X采样自分布p，特征Y采样自分布q，那么p与q之间的MMD距离的平方可以定义为：

此函数可以进一步由核技巧进行拓展，如下所示：

其中k()是用来将给定的数据映射至更高维度空间的核函数，它可以是线性核，高斯核等。

因为每个核都有衡量数据分布的函数，所以现实中决定哪一个函数最好是很难的，因此借用论文[1]中的策略，用核函数集来映射特征，其形式如下：

所以结合MMD损失的图像压缩的总的损失函数如下：

Alogrithm1描述了本文图像压缩算法的基本处理过程，其中以mini-batch为基础，其中训练时pre-trained网络参数固定不进行更新，其目的是作为正则项监督编解码网络以提高压缩效果：

实验表明该方法在压缩图像中的目标检测与目标识别等视觉任务的性能相对于JPEG压缩算法有所提升，但是在PSNR与MSSSIM指标上提升的不明显。

参考文献

[1] Mingsheng Long, Yue Cao, Jianmin Wang, and Michael Jordan. Learning transferable features with deep adaptation networks. In ICML, 2015.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。