【图像压缩】高斯混合-注意力模型《Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Atten》

最新推荐文章于 2024-03-04 17:45:45 发布

hahalidaxin

最新推荐文章于 2024-03-04 17:45:45 发布

阅读量2.2k

点赞数 2

分类专栏：图像压缩视听觉处理文章标签：图像压缩注意力离散化的高斯混合

本文链接：https://blog.csdn.net/hahalidaxin/article/details/117847393

版权

视听觉处理同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

图像压缩

13 篇文章 23 订阅

订阅专栏

绪论

本文针对熵模型优化提出使用离散化的高斯混合模型已提供更灵活的隐层表示分布估计，此外在网络结构中使用注意力模块关注复杂区域以提高性能。是第一个达到与VTM 5.2相近表现的工作。

提出的方法

压缩模型公式化

$y = g_a(x;\phi)$

$\hat{y} = Q(y)$

$\hat{x} = g_s(\hat{y};\theta)$

其中 $x,\hat{x},y,\hat{y}$ 分别代表原始图像，重建图像，隐层表示，量化后的隐层表示， $\phi, \theta$ 是可训练参数。 $U|Q$ 代表量化、熵编码。推理时， $U|Q$ 是四舍五入量化，生成 $\hat{y}$ 经过熵编码为比特流。简单起见使用 $\hat{y}$ 代替 $\tilde{y}|\hat{y}$ 。如果给定一个概率模型 $p_{\hat{y}} (\hat{y})$ ，熵编码技术可以无损压缩已经量化后的数据。算术编码器是一种接近最优的编码器，这使得在训练过程中使用 $y$ 的熵来估计编码率是可行的。

图2中，(a)结构隐层 $y$ 的边缘分布未知且没有额外比特用来估计 $p_{\hat{y}}(\hat{y})$ ，用一个非自适应的、编码端和解码端共享的密度模型，分解先验模型作为熵模型。之后，提出超先验模型(b)，引入边信息 $z$ 捕获 $y$ 中元素间存在的依赖，公式化如下：

$z = h_a(y;\phi_h)$

$\hat{z} = Q(z)$

$p_{\hat{y}|\hat{z}}\leftarrow h_s(\hat{z};\theta _h)$

其中 $h_a$ 和 $h_s$ 是超分析、合成变换， $\phi_h, \theta_h$ 是可训练参数。 $p_{\hat{y}|\hat{z}}(\hat{y}|\hat{z})$ 是以 $\hat{z}$ 为条件的估计分布，在超先验那篇文章中被建模为0均值高斯分布， $\sigma^2 = h_s(\hat{z};\theta)$ 。

之后，自回归上下文模型(c)被提出，其中 $C_m$ 代表自回归上下文模型。

可学习的图像压缩是一个基于拉格朗日乘子的率失真优化。损失函数如下：

$L = R(\hat{y}) + R(\hat{z}) + \lambda \cdot D(x, \hat{x}) \\=\mathbb{E}[-log_2(p_{\hat{y}|\hat{z}}(\hat{y}|\hat{z}))] + \mathbb{E}[-log_2(p_{\hat{z}|\psi}(\hat{z}|\psi))] + \lambda \cdot D(x, \hat{x})$

$\hat{z}$ 没有先验，将其分布建模为分解密度模型：

$p_{\hat{z}|\psi}(\hat{z}|\psi) = \prod_i (p_{z_i|\psi}(\psi)*U(-\frac{1}{2}, \frac{1}{2}))(\hat{z}_i)$

剩下的部分介绍如何精确建模 $p_{\hat{y}}(\hat{y}|\hat{z})$

离散高斯混合似然

上图显示熵模型是如何工作的，HyperPrior采用0均值高斯分布，Joint采用带 $\mu$ 和 $\sigma$ 的高斯分布，Our Approach采用高斯混合模型。只显示熵值最高的通道，第一列是量化后的隐层 $\hat{y}$ ；第二、三列是熵模型预测得到的均值和方差；第四列是 $\frac{\hat{y}-\mu}{\sigma}$ ，用来衡量未被熵模型捕获的剩余冗余；第五列是 $-log_2(p_{\hat{y}|\hat{z}}(\hat{y}|\hat{z}))$ ，计算使用熵模型预测分布编码每个位置所需比特。

通常来说，预测均值 $\mu$ 接近 $\hat{y}$ ，复杂区域有更大的 $\sigma$ ，需要更多的比特来编码，相反平滑区域需要相对少的比特。HyperPrior仍然存在空间冗余，比如天空。相比HyperPrior，Joint通过引入自回归模型建模上下文相关性使得预测更准确（第四列结构相对少）。但由2行4列还能观察到空间冗余，尽管周围元素已经作为上下文模型的输入，参数化分布不能很好利用上下文信息和额外的比特 $\hat{z}$ 。这可能是被单个高斯模型的固定形状限制了。于是考虑使用更灵活的参数模型——高斯混合模型：

$p_{\hat{y}|\hat{z}}(\hat{y}|\hat{z}) \sim \sum_{k=1}^{K} w^{(k)} N(\mu^{(k)}, \sigma^{2(k)})$

上式通常需要连续值， $\hat{y}$ 是离散的，受到PixelCNN++的启发，提出离散化的高斯混合似然。因为高斯混合表现优于逻辑混合分布，所以使用高斯混合。熵模型公式化如下：

$p_{\hat{y}|\hat{z}} = \prod_i p_{\hat{y}|\hat{z}}(\hat{y}_i|\hat{z})$

$p_{\hat{y}_i|\hat{z}} \\ = ( \sum_{k=1}^K w_i^{(K)} N(\mu_i^{(k)}, \sigma_i^{2(k)}) * U(-\frac{1}{2}, \frac{1}{2}) )(\hat{y}_i) \\=c(\hat{y}_i + \frac{1}{2}) - c(\hat{y}_i - \frac{1}{2})$

i代表特征图中位置，k代表第k个高斯分布， $c(\cdot)$ 代表累计分布函数。为了实现训练稳定，将 $\hat{y}$ 裁剪到 $[-255, 255]$ 范围内，当-255时，c为0，当255时，c为1。

该方法可视化结果为图3后三行，实验中设置K=3，第5列显示每个位置第k个高斯分布的权重 $w^{(k)}$ 。虽然第4列显示还存在一些空间冗余，但是混合模型可以调节不同高斯不同位置的权重。另外，我们方法的方差更小，说明熵模型更精确，使用的比特就更少。4行1列显示了编码需要的比特数。

该机制与CABAC的MPS相似，但隐层表示不限于二进制，一种极端是平滑区域，两个平均值都相同，退化为单个高斯模型；一种极端是边界、复杂区域，三个均值都不同，这会导致似然中出现三个峰值代表三个最可能的值。另外模型参数可训练，因此我们的方法更灵活、精确。图2(d)为高斯混合模型结构。

网络结构

其中，使用残差块增大感受野，解码端使用subpixel convolution而非transposed convolution上采样以保留更多细节。

另外使用注意力模块提升图像压缩、重建性能。注意力模块能够帮助网络将更多注意力放在复杂区域、减少简单区域的比特。移除non local block简化注意力结构，因为在我们的结构中深层残差块已经捕获了足够大的感受野。训练损失与时间比较如表2。

实验

消融实验：

RD曲线：

可视化结果：

Appedix

略

hahalidaxin

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
【图像压缩】高斯混合-注意力模型《Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Atten》

绪论本文针对熵模型优化提出使用离散化的高斯混合模型已提供更灵活的隐层表示分布估计，此外在网络结构中使用注意力模块关注复杂区域以提高性能。是第一个达到与VTM 5.2相近表现的工作。提出的方法压缩模型公式化其中分别代表原始图像，重建图像，隐层表示，量化后的隐层表示，是可训练参数。代表量化、熵编码。推理时，是四舍五入量化，生成经过熵编码为比特流。简单起见使用代替。如果给定一个概率模型，熵编码技术可以无损压缩已经量化后的数据。算术编码器是一种接近最优的编码器，这使得在训练过程中..
复制链接

扫一扫