【点云压缩】Variational Image Compression with A Scale Hyperprior

最新推荐文章于 2023-10-21 23:51:03 发布

Jonathan_Paul 10

最新推荐文章于 2023-10-21 23:51:03 发布

阅读量949

点赞数 4

分类专栏：点云阅读笔记文章标签：深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/weixin_43444175/article/details/125143342

版权

点云阅读笔记专栏收录该内容

10 篇文章 10 订阅

订阅专栏

Variational Image Compression with A Scale Hyperprior

本文给出了压缩的一种较为新的方法：利用超先验的知识。超先验是”先验的先验”。

Intro

本文给出了边信息（Side information）的定义：边信息是从编码器流向解码器额外的比特流，该信息向熵模型进行了信号修改，从而减少了不匹配（additional bits of information sent from the encoder to the decoder, which signal modifications to the entropy model intended to reduce the mismatch）。因此，这种边信息被视为熵模型参数的先验，而边信息更成为了隐藏表征的“先验的先验”了。

Ideas

Background

基于变换的模型

变换的编码（Transform coding）现在在深度学习上是热门的。输入图像的向量的 $x$ 可以使用一个参数化的变换，变成：

$y=g_a(x;\phi_g)$

这里的 $y$ 是潜在的特征； $\phi_g$ 是变换器（编码器）的参数；这个过程就叫做Parametric Analysis过程。而注意的是，这里的 $y$ 需要经过量化之后才能熵编码（量化为离散的值，使其可以被无损地熵编码）。假定量化后的潜在特征为 $\hat y$ ，则重建所使用变换，使得：

$\hat x = g_{s}\left(\hat{{y}} ; {\theta}_{g}\right)$

其中，这个过程叫Parametric Synthesis过程（这里同样等效地看成解码器）。 ${\theta}_{g}$ 是解码器的参数。

VAE

变分自编码器（Variational Autoencoder, VAE）相较于AE，它把输入映射到一个分布中（这个分布通常是Gussian）而不是一个具体的向量，如上一小节介绍的基于变换的模型中的 $y$ 。在VAE中，他利用“推断模型”（Inference Model）推出在图像的概率源中的潜在表示（“inferring” the latent representation from the source image），用“生成模型”（Generative model）生成概率从而得到重建图像。

更具体的请参照[1]。但是请注意，在本文中，我们使用 $z$ 来表达超先验信息而并非潜在分布。请注意区分。

Model

如图2所示，利用先验知识得到的潜在表征 $y$ （图2的左数第二张图）是有结构性依赖的（空间耦合性），而这是不能被变分模型的全分解所捕获的。于是，将采用超先验的方式进行建模。

请添加图片描述

所谓的超先验就是先验的先验。因此，再建立了一个潜在表征 $y$ 的潜在表征 $z$ ，以求捕获这种空间依赖性。值得一提的是，这里的 $z$ 便是边信息（ $z$ is then quantized, compressed, and transmitted as side information）。捕捉到潜在表征 $z$ 之后，用其量化后的 $\hat z$ 来估算 $\hat \sigma$ 。这个 $\hat \sigma$ 将会被用于在解码器端重建 $\hat y$ ，以获得 $\hat x$ 。