【OpenReview翻译】(ICLR 2017)End-to-end Optimized Image Compression

(ICLR 2017)End-to-end Optimized Image Compression

摘要

本文描述了一种由非线性分析变换、均匀量化变换和非线性综合变换组成的图像压缩方法。变换是在卷积线性滤波器和非线性激活函数的三个连续阶段中构造的。与大多数卷积神经网络不同,联合非线性被选择来实现一种局部增益控制形式,其灵感来自于那些用于模拟生物神经元的控制。使用随机梯度下降的一种变体,我们在一个训练图像数据库上共同优化了整个模型的率失真性能,为量化器产生的不连续损失函数引入了一个连续代理。在某些条件下,松弛损失函数可以解释为生成模型的对数似然,由变分自编码器实现。然而,与这些模型不同的是,压缩模型必须在速率失真曲线上的任何给定点运行,这是由权衡参数指定的。在一组独立的测试图像中,我们发现优化后的方法通常比标准JPEG和JPEG 2000压缩方法表现出更好的率失真性能。更重要的是,我们观察到所有图像在所有比特率下的视觉质量都有了显着的改善,这得到了使用MS-SSIM的客观质量估计的支持。

OpenReview地址:https://openreview.net/forum?id=rJxdQ3jeg&noteId=rJxdQ3jeg

1. Review by Jeremy Noring-Very interesting results

(1)关于使用的JPEG和JPEG2000实现的细节,以及它们是如何配置的。我在许多论文中看到的一个主要缺点是它们没有包括用于比较的特定编码器和配置。如果不知道这一点,就很难知道是否使用适当配置的适当强的JPEG实现进行了比较。
(2)不幸的是,与JPEG2000的比较没有那么有趣,因为该编解码器没有广泛使用,而且可能永远不会。一个更好的比较是WebP性能。或者更好的是,两者都有。

2. Review by AnonReviewer3-Very good paper

这是迄今为止我读过的关于深度神经网络图像压缩的最有说服力的论文。这篇文章写得很好,在客观的框架中使用了率失真理论。本文与合理的基线(JPEG2000,而不是以前的论文只考虑JPEG)进行了比较。我希望这篇论文能产生很好的影响。

是的,请包括Lena/Barbara/Baboon(抱歉,不是Gibbons)的结果,以及最先进的参考文献,更经典的方法,如我在我的问题中提到的。我认为清楚地说明神经网络与以前最好的方法的比较是很重要的。从提交的版本,我仍然不知道这两类方法是如何定位的。

3. Review by AnonReviewer4-Great progress performance-wise but missing details

本文将率失真优化方法扩展到深度编码器和解码器,并从简单的熵编码方案扩展到自适应熵编码。此外,本文还讨论了该方法与变分自编码器的关系。

考虑到率失真优化的方法已经被发表,这篇文章的新颖性可以说不是很高(如果我错过了一个新技巧,请纠正我)。在某些方面,这篇论文甚至代表了一种倒退,因为早期的工作优化了感知度量,这里使用了MSE。然而,与JPEG 2000相比,结果是一个明显的改进,而且我不知道有任何其他学习编码被证明达到了这种性能水平。这篇论文写得很好。

方程10似乎是错误的,我认为配分函数应该取决于g_s(y;θ)。这将意味着该方法不等同于非欧几里得度量的VAE。

优化MSE而不是像以前的工作那样使用感知度量的原因是什么?考虑到作者的背景,即使是评估也只根据PSNR进行,这令人惊讶。

自适应熵编码对深度编码器和解码器的影响有何贡献?这似乎是一条重要的信息,所以如果能像之前的论文那样看到没有适应的情况下的表现将会很有趣。应该提供更多关于自适应编码器及其效果的细节,当作者这样做时,我会很高兴给出更高的分数。

3.1 response to reviewer 4-Johannes Balle

感谢您的反馈,这促使我们对论文的几个方面进行了更仔细的研究。

关于新颖性:您是对的,速率失真优化的总体框架与上个月在图片编码研讨会上提出的框架相同,但请注意PCS论文非常简短(5页),并且PCS会议的听众基本上与ICLR的听众没有重叠。更重要的是,ICLR论文更加详细,包含了您提到的所有附加内容(深度转换的使用,与变分自动编码器的比较,以及实际的熵编码器),在优化方案中包含了各种改进(在附录中有文档记录),并显示了在速率失真值和视觉外观方面都得到了显着改善的结果。考虑到这一切,我们认为我们提交的ICLR代表了比PCS论文的重大进步,更一般地说,是图像压缩领域的重大进步。

关于方程10:你是对的,这个方程缺少配分函数对参数的依赖性——谢谢你指出这一点。与VAE的等价至少适用于任何范数,以及任何仿射和可逆的感知变换(在这种情况下,方程是正确的),但不像我们所说的那么普遍。我们会在修改后的论文中改正这一点。

关于感知失真:我们对感知度量的优化非常感兴趣(这是PCS论文的重点),并将在某些时候用当前系统进行测试。但对于目前的工作,优化MSE具有两个实际优势。首先,我们还没有一个包括颜色的可靠的感知度量,我们想要包括彩色图像的例子。其次,在目标中使用MSE允许与现有编码器进行更公平和可解释的比较,这些编码器基本上都针对MSE进行了优化。针对永久指标进行优化肯定会降低我们编码员的MSE性能,并且与其他编码员进行比较(无论是就MSE而言,还是像SSIM这样的指标,还是实际的人类受试者评级)都将是“苹果vs橘子”,因此解释起来有点棘手。当我们进行实验时,我们非常惊讶地发现编码图像的主观质量是如此之好。如果我们针对感知度量进行了优化,那么我们的网络中的参数非线性转换就不会明显地将解决方案推向感知更好的解决方案,即使是针对普通的旧MSE进行了优化!

关于自适应熵编码器:我们包含了一个熵码,以提供与现实世界编码器(JPEG和JPEG 2000)的公平比较,并确保我们的率失真声明与可实现的编码器相对应。值得注意的是,自适应熵编码是相当标准的这些天。特别是,JPEG 2000使用了自适应算术编码器。请注意,在PCS论文中,我们没有与其他编码方法进行比较,而只是与其他变换(特别是DCT)进行比较。在关闭自适应方面,本文使用的CABAC编码器是自适应的,不容易修改。由于我们没有使用任何上下文依赖关系,因此我们并不期望自适应性对报告的结果有多大贡献。为了验证这一点,我们现在已经测量了来自柯达集的编码测试图像的熵,假设在训练集上学习的概率模型。这些值应该非常接近良好的非自适应算术代码的性能。在整个测试集上取平均值的结果如图所示:[kodak-entropy2-psnr]。正如预期的那样,由于适应性,有一个相对较小的改进。因此,我们的系统在JPEG 2000上获得的大部分率失真性能增益来自于优化的3级GDN变换。

正如我们在对审稿人3的回复中提到的,我们将在修订后的附录中包括关于熵码设计的更多细节,我们还将包括上面链接的图。我们预计将在未来几天内上传修订版本。

4. Review by AnonReviewer1-Official review

这是一篇很好的论文,它展示了一个端到端的训练图像压缩和解压缩系统,它比现有的图像压缩算法(如JPEG-2000)实现了更好的比特率和质量权衡。除了展示“深度学习”对新应用的有效性之外,本文的一个关键贡献是引入了可微分版本的“速率”函数,作者表明该函数可用于不同速率失真权衡的有效训练。我希望这将对压缩应用程序本身以外的其他任务产生影响,这些任务可能受益于类似函数的可微分近似。

作者对我预习前提出的问题给出了深思熟虑的回答。我仍然认为,为了在固定范围和量化下最小化失真,一个足够复杂的网络将在固定范围内学习自动生成具有最高可能熵的代码(即,它将满足上界)。但第二个论点是令人信服的——这样做会强制使用特定的“形式”来使用压缩器输出,以匹配当前系统的有效压缩,将需要一个更复杂的网络,能够执行当前由用于存储q的单独可变速率编码器完成的计算。

4.1 Response to official review

感谢您的全面反馈。

我们同意,原则上有可能开发一个更复杂的变换,当仅针对失真进行优化时,该变换在量化箱上实现均匀概率,并且其性能与我们的解决方案一样好或更好。然而,我们也找不到证明这种变换存在的方法。

在任何情况下,限制我们使用的转换类型,优化的解决方案表现出强烈的非均匀概率,这意味着任何解决方案施加均匀概率将是次优的。

5. Review by AnonReviewer2- A good paper with an interesting premise, some novel methods and good results

这篇写得很好的文章提出了一种端到端的图像压缩学习方法。通过优化率失真性能和巧妙的松弛,该方法能够通过优化自然图像数据库来学习有效的图像压缩方法。因为方法有趣,结果有趣,分析也很彻底,所以我很容易推荐接受。

(1)我想引用一篇相关的论文是Van der Oord和Schrauwen的:http://jmlr.org/papers/volume15/vandenoord14a/vandenoord14a.pdf
(2)如果能看到网络学习到的一些过滤器的可视化效果,那就太好了——它们能否与其他已知的变换(如可操纵金字塔等)进行比较?
(3)考虑到学习到的表示能够建模长距离依赖关系和微妙的图像结构,它是否可以用于其他图像恢复任务,如去噪?

5.1 Answer to AnonReviewer2

1)感谢您将这篇论文引起我们的注意-它看起来很有趣,但可能与我们论文的主题(率失真优化)不那么直接相关。请注意,我们没有引用我们自己之前的工作,其中我们使用gsm作为图像先验(Wainwright & Simoncelli 99, Portilla et al. 2003),包括一些学生- t混合分布(Lyu & Simoncelli 08;Lyu 11),以及压缩归一化(Buccigrossi & Simoncelli 99, Malo et al. 06)。

2)第一阶段的过滤器确实主要是定向的,并且有不同的大小(尽管固定的9x9大小阻止它实现在可操纵金字塔中实现的许多八度缩放)。我们目前正在研究在后期将过滤器可视化的方法。

3)我们同意广义归一化变换(我们之前用于图像密度建模-参见ICLR 2016)可能对其他图像处理任务有用,例如去噪,去模糊/超分辨率或动态范围解压缩。但我们更倾向于直接针对它们进行优化。

6. Review by AnonReviewer1-Optimizing different tradeoff vs distortion for different rates

在训练目标中选择速率/熵的表达式会带来一定程度的复杂性。如果我理解正确的话,你仍然会为一组不同的速率和失真加权组合训练不同的编码器-解码器。

我想知道,对于一组不同的利率,如果不是更容易将扭曲最小化。固定速率可以通过将y限制在0,1,然后添加不同级别的随机噪声(就像你已经做的那样)来模拟不同数量的量化级别来实现。

据推测,对于每个量化级别的数量选择,编码器-解码器对将学习最小化失真,并将获得不低于对应于量化级别均匀分布的速率。

6.1 response to AnonReviewer1

你是正确的:我们优化编码器/解码器参数为每个率失真比(即,每个选择lambda)。

一般来说,为了优化速率失真权衡,可以优化两项的加权和,或者在保持另一项不变的情况下优化其中一项(在编码社区中,针对特定类型的编码器有很长的这样做的历史)。但是固定范围和量化区间数量并不等于固定比率。

首先,这只会给码率设置一个上限(如您所说),因为实际码率取决于分布。一般来说,仅包含失真项的损失函数将无法区分具有相同失真但不同速率的两组不同的编码器/解码器。

其次,作为控制速率的一种方式,固定量化区间的范围和数量会带来不必要的约束。很容易想象整个编码器/解码器类都达到给定的期望速率,但不适合具有有限转换值的约束。特别是,我们观察到的优化边际分布是重尾的,并且在特征图上有很大的变化范围。如果我们强制所有的特征映射具有相同的范围边界,那么我们不仅仅是在速率上强加了一个上限,而且我们还规定了边际分布的特定属性,这很可能导致次优结果。如果您建议的强加约束的意图是最终得到均匀分布(为了达到速率界限),那么这一点就特别重要。

我们认为,直接针对加权率失真进行优化,施加尽可能少的额外约束,最终会更直接。

7. Review by AnonReviewer3-Comparison and details

1)在我看来,给CABAC提供量化值的方式缺乏细节。你能详细说明一下吗?

2)你有没有测量过Lena、Barbara、Gibbons的可实现的率失真比较,读者可能比柯达的数据集有更多与最新压缩技术相比较的点?

3)同样,为了完整起见,您是否可以将其与JPEG2000之后开发的方法进行比较,例如定向小波变换(http://vivien.chappelier.free.fr/owavelets/)。

7.1 response to AnonReviewer3

1)我们的算术代码处理每个量化值独立于所有其他的。二值化与H.264中处理变换系数的方式非常相似(本质上,一个0位,一个符号位,一个截断的一元代码,后面是一个指数Golomb代码——这在我们引用的IEEE CSVT论文中有描述)。考虑到对率失真优化的关注,在正文中提供熵代码的完整细节似乎有点分散注意力,但我们将在附录中添加简短的描述。

2)我们还没有,但是我们会把Lena和Barbbara作为我们为这篇论文创建的网站的额外例子。我们不知道Gibbons的图像(至少不是那个名字)-你能提供参考/来源吗?

3)我们的目的是比较已知的方法,代表某些类别的线性变换编码器。在这方面,JPEG和JPEG 2000是广泛使用的基准,尽管它们不是最先进的。我们计划与其他方法进行更彻底的比较,包括最先进的方法(例如HEVC intra, http://www.slideshare.net/touradj_ebrahimi/icip2016-image-compression-grand-challenge-66475960)。由于时间非常有限,我们认为我们无法在截止日期前提供这些结果,但我们可能能够在会议上展示一些。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值