《End-to-end optimization of nonlinear transform codes for perceptual quality》论文阅读

Z凌

已于 2024-04-24 10:41:06 修改

阅读量725

点赞数 28

分类专栏：图像压缩文章标签： opencv 深度学习计算机视觉图像处理人工智能

于 2024-04-24 10:38:36 首次发布

本文链接：https://blog.csdn.net/m0_49358417/article/details/138080659

版权

图像压缩专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文提出了一种通用框架，通过端到端优化非线性变换码，结合可微的感知度量，改进了图像压缩的速率失真性能。实验对比显示，优化的非线性变换在感知质量上优于固定DCT和线性变换编码。

摘要由CSDN通过智能技术生成

端到端的图像压缩–《End-to-end optimization of nonlinear transform codes for perceptual quality》

End-to-end optimization of nonlinear transform codes for perceptual quality论文阅读

端到端的图像压缩--《End-to-end optimization of nonlinear transform codes for perceptual quality》
摘要
一、简介
二、模型结构
总结

论文地址：https://arxiv.org/abs/1607.05006

摘要

本文引入了一个通用框架，用于假设标量量化的非线性变换码的速率失真性能的端到端优化。该框架可用于结合任何可微的感知度量来优化任何可微的分析和合成变换对。作为一个例子，本文考虑一个由线性变换和多维局部增益控制形式构建的代码。失真是通过最先进的感知指标来测量的。当在大型图像数据库上进行优化时，与固定 (DCT) 代码以及针对均方误差优化的线性变换代码相比，这种表示形式在比特率和感知外观方面提供了显着的改进。

一、简介

在图像压缩中对图像进行变换是最常用的方法，在传统编码器中采用的大多都是可逆的线性变换。使用非线性变换的方法也是在线性变换系统中插入非线性变换，需要人工去设计，组合这些编码工具且泛用性不高。未避免繁琐的编码工具组合过程，提出了端到端的非线性变换编码。

二、模型结构

端到端的非线性变换编码与传统变换编码都有：分析变换（ga）、量化（q）、合成变换（gs）、码率估计（H）和失真评估（D）。但端到端的非线性变换编码还多了感知变换（h）。

分析变换： 使用可微函数 y = ga(x; φ)（分析变换）将图像矢量 x 变换为码域矢量，由矢量 φ（例如，包含线性滤波器系数）参数化。
量化： 对变换后的 y 进行标量量化，生成整数索引 q 的向量和重构向量 ^ y。
合成变换： 将^ y非线性合成变换回信号域以获得重建图像 ˆ x = gs(ˆ y; θ)，其中该合成变换 gs 由向量 θ 参数化。
码率估计： 通过测量图像集合上量化索引的离散概率分布 Pq 的熵 H 来评估码率。
失真评估： 传统上，通过采用 x 和 ˆ x 之差的平方欧几里德范数（或等效地，峰值信噪比，PSNR），直接在图像域中评估失真。然而，PSNR 与人类感知并不完全一致。为了缓解这个问题，模型对向量 z = h(x) 和 ˆ z = h(ˆ x) 进行额外的“感知”变换，然后使用合适的范数计算失真。精心选择的变换 h 可以提供比 PSNR 更好的主观视觉失真近似。
在这里插入图片描述

三、优化框架

在变换编码中以最小化码率-失真（rate-distortion）函数求ga、gs。这篇论文损失函数为：
在这里插入图片描述
其中第一项表示量化索引 q 的向量的离散熵。第二项测量感知表示中参考图像 z 与其重建 ^ z 之间的失真。量化会导致计算过程不可微，导致神经网络无法反馈。所以用添加均匀噪声的方法替代传统量化，用连续可微的目标函数来近似目标函数。损失函数变为：
在这里插入图片描述
这里用Δy表示（-1/2，1/2）的均匀噪声。其中。其实就是将量化^ y=round（y)改成^y=y+Δy。其他操作不变。

四、变换参数的选择

1.分析变换和综合变换参数

在balled等人之前的实验中：线性变换后跟特定形式的联合局部增益控制（广义除法归一化，GDN）与摄影图像的局部概率结构非常匹配。表明联合归一化表示也可能对压缩有用。所以采用GDN和IGDN(逆向广义除法归一化)当作ga和gs。
在这里插入图片描述
其中Φ包含参数：α、β、γ、ε、和H。GDN 的近似逆IGDN:

其中θ包含参数：α、β、γ、ε、和H`。

2.感知变换参数

NLP（标准化拉普拉斯金字塔）模拟了与早期视觉系统相关的变换：局部亮度减法和局部增益控制。图像使用拉普拉斯金字塔分解，然后在规范化的域中评估参考和重构之间的失真。参数经过优化，以最好地适应TID2008数据库中的感知数据。

五、实验结果

实验所考虑的两类变换：线性分析和综合变换操作16×16像素块，以及16×16块GDN变换和上述近似逆变换。每种变换组合都针对两个失真度量（均方误差MSE和NLP域距离）进行了优化，使用Adam算法在ImageNet数据库上优化。结果显示，在PSNR下，线性变换略低于DCT，而在NLP域距离下，NLP优化的GDN和线性变换明显优于DCT。
在这里插入图片描述

总结

论文介绍了一种端到端优化非线性变换编码的框架，并应用于任何可微的分析和综合变换以及感知度量。通过在图像数据库上优化非线性变换，以感知度量作为失真度量，获得了优于固定(DCT)码和线性变换码(优化均方误差)的速率和感知质量。
实验结果表明，与基于DCT的编码相比，非线性变换码可以获得显著的速率节省，同时保持相似的质量。这归因于非线性变换码能够更好地分配比特，以感知地平衡不同区域的细节。
论文提出的框架为探索更复杂的非线性分析和综合变换以及感知度量提供了手段。
论文还介绍了一种高效的反向近似变换，用于联合优化规范化的感知变换，从而避免了迭代解线性方程组的需求。
这篇论文在思想、方法、实验等方面对变分编码器的出现产生了积极影响，为其设计和应用奠定了基础。