【图像压缩】超先验模型《VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR》

最新推荐文章于 2022-07-03 17:08:41 发布

hahalidaxin

最新推荐文章于 2022-07-03 17:08:41 发布

阅读量8.8k

点赞数 18

分类专栏：视听觉处理图像压缩文章标签：图像压缩超先验模型端到端训练

本文链接：https://blog.csdn.net/hahalidaxin/article/details/117631525

版权

视听觉处理同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

图像压缩

13 篇文章 23 订阅

订阅专栏

updating...

1 动机

基于香农定理，使用估计所得熵模型对隐层表示建模理论上的编码下界为：

$R = \mathbb{E}_{\hat{y}\sim m}[-log_2 p_{\hat{y}}(\hat{y}))]$

其中 $m$ 为隐层表示（latent representation）实际分布， $p_{\hat{y}}$ 为熵模型估计分布，熵模型是一个发送人与接收人共享的先验概率模型，用来估计真实隐层表示分布。上面的式子说明当熵模型估计 $p_{\hat{y}}$ 与实际分布 $m$ 完全相同的时候会有编码长度最小。这告诉我们，一方面，当熵模型使用全分解（fully factorized）概率分布的时候，如果实际分布中存在统计依赖，熵模型估计分布天然不能拟合实际分布；另一方面，因为 $y=encoder(x)$ 是一个确定性的过程，如果想要在使用全分解概率分布的情况下效果提升，则需要 $encoder$ 对输入的自然图像尽量多的去除统计依赖。

这篇文章，关键在于引入边信息，捕捉隐层表示的隐藏信息以辅助熵模型的参数生成，从而改善熵模型估计与隐层实际分布不匹配问题。将边信息导入比特流，这使得decoder也可以共享熵模型。解压时decoder先解压边信息，构建熵模型，之后基于正确的熵模型解压隐层信息。

2 变分模型

算法的优化问题可以建模为VAE模型。VAE是一个概率生成模型。熵模型对应VAE隐层表示的先验 $p_{\tilde{y}}$ 。边信息可以看做是熵模型参数的先验，先验的先验这里称之为超先验。

把压缩问题中的分析模型 $g_a$ 看做VAE中的推理模型，把合成模型 $g_s$ 看做生成模型。在VAE的推理模型，目的是要估计真实的后验概率 $p_{\tilde{y}|x}(\tilde{y}|x)$ ，这通常不可行。于是VAE中使用一个带参变分密度 $q(\tilde{y}|x)$ 来拟合真实后验概率 $p_{\tilde{y}|x}(\tilde{y}|x)$ ，通过最小化优化目标——隐变量真实分布与模拟分布的KL散度来达到拟合的效果，这相当于最小化图像压缩中的率失真（rate-distortion）性能：

$\mathbb{E}_{x\sim p_x} D_{KL}[q\ ||\ p_{\tilde{y}|x}] = \mathbb{E}_{x\sim p_x}\mathbb{E}_{\tilde{y}\sim q}[\cancelto{0}{logq(\tilde{y}|x)}\underbrace{-logp_{x|\tilde{y}}(x|\tilde{y})}_{weighted \ distortion}\underbrace{-logp_{\tilde{y}}(\tilde{y})}_{rate}]+const$

1. 第一项如下所示，U是一个宽度为1的均匀分布（如第三章中描述，在训练的时候使用添加均匀噪声代替量化）， $q$ 概率为1。 $log\ q == 0$ 。

$q(\tilde{y}|x,\phi_g) = \prod_i \boldsymbol{U}(\tilde{y}|y_i - \frac{1}{2},y_i+\frac{1}{2})) , y=g_a(x;\phi_g)$

2. 如果假设满足下面的分布：

$p_{x|\tilde{y}}(x|\tilde{y},\theta_g) = \boldsymbol{N}(x|\tilde{x},(2\lambda)^{-1}I), \tilde{x} = g_s(\tilde{y};\theta_g)$

那么第二项就是 $x$ 和 $\tilde{x}$ 的平方差，以 $\lambda$ 为权重。也就是说，如果以 $\tilde{y}$ 为条件的 $x$ 的分布满足如上条件的多维高斯分布，那么第二项可以看做图像压缩中的类MSE的失真项distortion，最小化目标函数等同于缩小重构图像的失真。

第三项， $\mathbb{E}_{\tilde{y}\sim q}[-log\ p_{\tilde{y}}(\tilde{y})]$ ，很容易看出与边缘分布 $m(\tilde{y})=\mathbb{E}_{x\sim p_x}q(\tilde{y}|x)$ （经过合成变换、量化操作之后的隐层分布）和先验 $p_{\tilde{y}}(\tilde{y})$ （熵模型分布）的交叉熵[1]相同，当边缘分布与先验相同时最小，即最小化目标函数等同于使熵模型分布更拟合边缘分布。反映了编码 $\tilde{y}$ 的代价，可以看做图像压缩中的率rate。这里将先验建模成为一个无参数、可全分解的密度函数如下（A.6.1）：

$p_{\tilde{y}|\psi}(\tilde{y}|\psi) = \prod_i(p_{y_i|\psi^{(i)}}(\psi^{(i)})*\boldsymbol{U}(-\frac{1}{2},\frac{1}{2}))(\tilde{y}_i)$

其中， $\psi^{(i)}$ 代表每一个单变量分布 $p_{y_i|\psi^{(i)}}$ 的所有参数。在图像压缩中，熵模型的分布只由参数决定。*代表卷积，目的是让先验 $p_{\tilde{y}}(\tilde{y})$ 能够更好地匹配边缘分布 $m(\tilde{y})$ 。称上面这种式子为可分解先验模型（A.6.2）。

[1]：交叉熵定义：

$H(p,q) = \mathbb{E}_p[-log\ q] = H(p)+D_{KL}(p||q)$

3 超先验

如下所示，左二，由分析模型得出的隐层表示在尺度上存在空间耦合性，如高对比度区域响应集中的高、存在边缘。只靠全分解的熵模型不能够捕获这些耦合情况，超先验用来捕获这些空间耦合性。

超先验的方法，通过引入隐藏变量 $\tilde{z}$ 来建模空间相关性，扩展模型，将每个隐层变量 $\tilde{y}_i$ 建模成满足均值为0标准差为 $\tilde{\sigma}_i$ 的高斯分布，其中 $\tilde{\sigma}$ 由隐藏变量 $\tilde{z}$ 经过变换 $h_a$ 得来（同样卷积上一个标准均匀分布）：

$p_{\tilde{y}|\tilde{z}}(\tilde{y}|\tilde{z},\theta_h) = \prod_i(\boldsymbol{N}(0, \tilde{\sigma}^2)*\boldsymbol{U}(-\frac{1}{2},\frac{1}{2}))(\tilde{y}_i), \quad \tilde{\sigma} = h_s(\tilde{z};\theta_h)$

拓展推理模型， $y$ 之上加一个变换 $h_a$ ，得到一个联合可分解变分后验概率（single joint factorized variational posterior）如下：

$q(\tilde{y},\tilde{z}|x,\phi_g,\phi_h) = \prod_i \boldsymbol{U}(\tilde{y}_i|y_i-\frac{1}{2},y_i+\frac{1}{2})\cdot\prod_j \boldsymbol{U}(\tilde{z}_j|z_j-\frac{1}{2},z_j+\frac{1}{2}), \\ with \ y = g_a(x;\phi_g),z = h_a(y;\phi_h)$

由于没有 $\tilde{z}$ 的先验信息，所以使用之前建模 $\tilde{y}$ 的全分解密度模型建模 $\tilde{z}$ （A.6.1）:

$p_{\tilde{z}|\psi}(\tilde{z}|\psi) = \prod (p_{z_i|\psi^{(i)}}(\psi^{(i)})*\boldsymbol{U}(-\frac{1}{2},\frac{1}{2}))(\tilde{z}_i)$

总损失函数如下所示，其中第三项和第四项分别代表编码 $\tilde{y}$ 和 $\tilde{z}$ 的交叉熵，第四项代表边信息：

$\mathbb{E}_{x\sim p_x} D_{KL}[q\ ||\ p_{\tilde{y},\tilde{z}|x}] = \mathbb{E}_{x\sim p_x} \mathbb{E}_{\tilde{y},\tilde{z}\sim q}[ \cancelto{0}{log\ q(\tilde{y},\tilde{z}|x)} \underbrace{- log\ p_{x|\tilde{y}}(x|\tilde{y})}_{distortion} \underbrace{- log\ p_{\tilde{y}|\tilde{z}}(\tilde{y}|\tilde{z}) - log\ p_{\tilde{z}}(\tilde{z})}_{rate} ] + const$

直观来看， $\tilde{z}$ 由 $\tilde{y}$ 经过分析变换得到，其规模进一步缩小，然后又通过合成变换扩大规模，得到熵模型的参数，其中可能会有两个位置的参数来源与同一个 $\tilde{z}_i$ ，这就达到了对两个元素之间耦合性建模的目的。

4 网络结构

5 实验

A.6.1 单变量无参密度模型

借助累计分布函数 $c:\mathbb{R} \rightarrow [0,1]$ 定义密度模型 $p:\mathbb{R} \rightarrow \mathbb{R}^+$ 。其中累计分布函数满足：

$c(-\infty)=0;\ c(\infty)=1;\ p(x)=\frac{\partial{c(x)} }{\partial{x}} \ge 0$

累计分布函数应满足单调性，所以需要密度函数非负。假设累计分布函数可以分解为若干个函数：

$c = f_K\circ f_{K-1} \cdots f_1,\ with f_k:\mathbb{R}^{d_k} \rightarrow \mathbb{R}^{r_k}$

$p = f_K^{'} \cdot f_{K-1}^{'} \cdots f_1^{'}$

$f_K^{'}$ 是雅克比矩阵，矩阵形状为 $(r_k, d_k)$ ，为了保证 $p(x)$ 是一个单变量函数，即 $p$ 的形状为 $(1,1)$ ，需要 $r_K = d1 = 1$ （矩阵相乘从左向右）

为满足 $0\le p(x) \le 1$ ，首先需要雅克比矩阵非负，则选择 $f_K$ 如下：

$f_k(x) = g_k(H^{(k)}x + b^{(k)}), \quad 1 \le k \le K$

$f_K(x) = sigmoid(H^{(K)}x + b^{(K)})$

$with\ nonlinearities: \quad g_k(x) = x+a^{(k)} \odot tanh(x)$

$\odot$ 代表逐元素相乘， $H^{(k)}$ 代表权重矩阵， $a^{(k)},b^{(k)}$ 代表偏置向量。将上面的式子求导如下：

$f_k^{'}(x) = diag g_k^{'}(H^{(k)}x + b^{(k)}) \cdot H^{(k)},\quad 1\le k \le K$

$g_k^{'}(x) = 1+a^{(k)} \odot tanh^{'}(x)$

$f_K^{'}(x) = sigmoid^{'}(H^{(K)}x + b^{(K)}) \cdot H^{(K)}$

为了限制导数非负，需要限制 $H^{(k)}$ 所有元素非负， $a^{(k)}$ 所有元素以-1为下界，通过重参数化操作实现（其中带hat的是真实参数）：

$H^{(k)} = softplus(\hat{H}^{(k)}),\quad a^{(k)} = tanh(\hat{a}^{(k)})$

下面是使用该密度函数拟合一种高斯混合分布的情况（熵模型最终目的是要拟合真实分布）：

该模型pytorch版对应于entropy_model中的bottleneck，可以看出累计分布函数形如一个多层感知机MLP。在实现代码使用多种方法解决精度表示的数值问题。

其中累计分布函数部分代码如下：

    def _logits_cumulative(self, inputs: Tensor, stop_gradient: bool) -> Tensor:
        # TorchScript not yet working (nn.Mmodule indexing not supported)
        logits = inputs
        for i in range(len(self.filters) + 1):
            matrix = getattr(self, f"_matrix{i:d}")
            if stop_gradient:
                matrix = matrix.detach()
            logits = torch.matmul(F.softplus(matrix), logits)

            bias = getattr(self, f"_bias{i:d}")
            if stop_gradient:
                bias = bias.detach()
            logits += bias

            if i < len(self.filters):
                factor = getattr(self, f"_factor{i:d}")
                if stop_gradient:
                    factor = factor.detach()
                logits += torch.tanh(factor) * torch.tanh(logits)
        return logits

另外，实现的时候，设计了一个辅助损失函数，...，略。

A.6.2 加上均匀噪声来建模先验

在正文中，用到了与均匀噪声卷积后的密度函数来建模先验（熵模型） $p_{\tilde{y}|\tilde{z}}$ 和超先验 $p_{\tilde{z}}$ ，以使先验更加灵活的拟合变分后验 $q$ （实际分布）。假设变分后验和先验只有一维，此时， $g_a$ 总是为相应维度生成一个常数值：

$y=g_a(x)=c,\quad independent\ of\ x$

由于量化操作添加了均匀噪声，此时变分后验应该要精确匹配边缘分布：

$m(\tilde{y}) = q({\tilde{y}|x}) = \boldsymbol{U}(\tilde{y}|c-\frac{1}{2}, c+\frac{1}{2})$

交叉熵为： $\mathbb{E}_{\tilde{y}\sim m}[-log_2\ p_{\tilde{y}}]$ ，该交叉熵应该为0，为了使交叉熵估计为0，此时先验应该足够灵活地估计后验的形状——单位宽度均匀密度。

均匀分布不仅是高斯密度也是A.6.1中单变量无参密度函数的边界案例。为了解决这个问题，给先验卷上一个均匀分布：

$p_{\tilde{y}}(\tilde{y}) = (p*\boldsymbol{U}(-\frac{1}{2}, \frac{1}{2}))(\tilde{y}) \\ = \int_{-\infty}^{\infty} p(y)\boldsymbol{U}(\tilde{y}-y|-\frac{1}{2}, \frac{1}{2})dy \\ =\int_{\tilde{y}-\frac{1}{2}}^{\tilde{y}+\frac{1}{2}}p(y)dy \\ =c(\tilde{y}+\frac{1}{2}) - c(\tilde{y}-\frac{1}{2})$

其中 $c$ 是累计分布函数。于是，先验的概率密度可以使用累计分布函数的差来表示。此时不论 $p$ 是什么样的，当它的尺度参数[2]（简单来说，尺度越大分布越分散，尺度越小分布越集中）趋向于0的时候， $p_{\tilde{y}}$ 趋向于一个单位均匀密度。如下所示，卷积上一个均匀分布使得先验概率对均匀分布的陡峭边界更加拟合：

[2]https://en.wikipedia.org/wiki/Scale_parameter

hahalidaxin

关注

18
点赞
踩
77

收藏

觉得还不错? 一键收藏
13
评论
【图像压缩】超先验模型《VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR》

绪论 2015年，第一个端到端图像编码方案被提出。基于深度学习的端到端图像压缩主要分为两类，一类是基于RNN的方法，一类是基于CNN的方法。本文对基于CNN的方法
复制链接

扫一扫