ELIC 论文阅读笔记

最新推荐文章于 2025-05-08 17:42:45 发布

Xxxy _

最新推荐文章于 2025-05-08 17:42:45 发布

阅读量1.2k

点赞数 18

分类专栏： 3D点云论文学习笔记文章标签：论文阅读笔记

本文链接：https://blog.csdn.net/skyxya/article/details/137457728

版权

3D点云论文学习笔记专栏收录该内容

23 篇文章

订阅专栏

1. 论文基本信息

发布于： CVPR 2022

2. 创新点

文章结合空间上下文模型，提出了一种多维熵估计模型 SCCTX（该模型在降低比特率方面快速有效）
基于所提出的 SCCTX 模型，进一步提出了 ELIC 模型，采用堆叠残差块作为非线性变换。
提出了一种从压缩表示生成预览图像的有效方法。这是第一个解决学习图像压缩的超快预览问题的文献。

3. 背景

利用熵模型压缩图像，使用可微分的方法来监督并优化压缩模型，以最小化压缩后数据的期望负熵，从而提高压缩效果（在信息理论中，负熵可以被理解为数据的不确定性或者压缩后的数据的预期信息量。）
在熵模型压缩图像的基础上引入了反向自适应编码：比如使用了空间上下文模型（考虑了图像之间相邻像素之间的关系提高压缩效率）、使用通道条件模型（利用图像通道之间的统计信息，以更好的压缩图像）

4. Pipeline

4.1. Parallel multi-dimension context modeling （并行多维上下文建模）

4.1.1. Unevenly grouped channel-wise context model 不均匀分组的通道上下文模型

信道条件(CC)自适应编码的不均匀分组。M 通道编码符号 ^y 被分成 5 个块，通道数逐渐增加 Ck。

论文提出了一种不均匀的分组方案，通过使用更少的通道将更细的粒度分配给开始块，并通过使用更多的通道逐步增长以下块。因此，对于具有 M 个通道的符号 ^y，我们将它们沿通道维度拆分为 5 个块 ^y(1)。, ^y(5) 分别有 16、16、32、64、M -128 个通道。

4.1.2. SCCTX: space-channel context model 空间通道上下文模型

空间上下文模型和通道条件模型消除了沿空间和通道轴的冗余。

在第 k 个不均匀分组的块中，应用空间上下文模型 g(k) sp 来识别空间冗余。它可以是自回归卷积或其双通道并行自适应模型。引入了 gc 网络来对通道上下文 Φ(k) ch 进行建模。第 (k, i) 个位置 Φ(k) sp,i 和 Φ(k) ch 处的空间和通道分支的输出将与超先验表示 Ψ （这些信息用于确定熵编码过程中的编码长度或者解码过程中的解码器行为）连接并馈入位置聚合网络以预测熵参数Θ(k)i = (μ(k)i , σ(k)i ) 对于 ^y(k)i 的以下编码或解码。然后唯一获得的 ^y(k)i 将用作上下文来计算 Φ(k) sp,(i+1) 或 Φ(k+1) ch ，直到编码或解码整个 ^y。

使用神经网络对图像进行编码的过程中能输出多个维度的特征而把同一个维度的特征堆积在一起就是一个通道的特征起始通道在这里代表的是前几维度堆积在一起的特征。

4.2. ELIC: efficient learned image compression with scalable residual nonlinearity 具有可扩展残差非线性的高效学习图像压缩

RBS表示右侧所示的残差瓶颈块的堆叠（文中提到使用嵌套的残差瓶颈块能引入更多的非线性，有效的提升压缩性能，并且比使用类似全局注意力的方式更加高效，使用多层嵌套的残差瓶颈块来代替传统的线性归一化层）。
Attn 块是 Cheng 等人提出的注意力模块。
AE 和 AD 分别是算术 en/de-coder。
TConv 表示转置卷积。
蓝色和红色箭头表示编码和解码数据流。
橙色的是通过编码和解码共享的。
Q 可能是量化

提出的缩略图合成器的结构。双线性模块将三个双线性上采样层表示为 2 倍。

论文中建议训练一个额外的微型网络，称为缩略图合成器，将低分辨率图像重建为缩略图预览。在采用 SCCTX 时，大多数语义信息在早期解码的通道中被压缩。因此，建议仅从前 4 个块（即前 128 个通道）生成预览图像。在训练主模型后，冻结所有学习参数，并将主合成器更改为初始化的缩略图合成器。然后重新启动失真优化来训练模型。由于所提出的缩略图合成器非常轻，它的解码只需要几个微秒（w.r.t.768 × 512 图像）。与通过从完全重建的全分辨率图像中进行下采样来获得预览图像相比，使用所提出的模型来获得缩略图预览图像效率更高。