Implicit Neural Representations for Image Compression 论文笔记

最新推荐文章于 2025-02-17 09:30:00 发布

Xxxy _

最新推荐文章于 2025-02-17 09:30:00 发布

阅读量1.4k

点赞数 30

分类专栏： 3D点云论文学习笔记文章标签： python 人工智能算法论文阅读论文笔记

本文链接：https://blog.csdn.net/skyxya/article/details/136536310

版权

3D点云论文学习笔记专栏收录该内容

23 篇文章

订阅专栏

本文介绍了一种在ECCV2022会议上发布的创新方法，通过结合INR和SIREN，提出了一种压缩元学习初始化，显著加速了压缩速度并改善了率失真性能。研究者展示了INR在图像和3D形状压缩中的优越性，尤其是在与传统算法如Draco的竞争中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 论文基本信息

发布于： ECCV 2022

2. 创新点

提出来基于INR的压缩元学习初始化，加速了压缩速率和能产生更好的率失真性能。
将 SIREN 网络与位置编码相结合，提高了率失真性能。
为了强调基于 INR 的源压缩的通用性，我们进一步对 3D 形状压缩进行了实验，其中我们的方法大大优于传统的压缩算法 Draco。

3. 背景

论文中采用源压缩中有损压缩的概念（有损压缩旨在权衡文件的质量及其大小——称为率失真权衡），因为无损压缩的理论极限是香农定理中提到的熵。

RDAEs是一种特殊类型的自动编码器（Autoencoder）。在机器学习中，自动编码器是一种神经网络结构，用于学习数据的紧凑表示（编码），然后尽可能地重构原始数据（解码）。Rate-Distortion Autoencoders（率失真自动编码器）的目标是联合优化两个方面：编码的速率（Rate）和重构的失真（Distortion）。文章中的INRs摒弃了这种方式，隐式神经表示是一种灵活的多用途的数据表示，能够适用于不同分变率的数据。

论文的结论：

论文引入了一个压缩管道，它大大优于最近提出的 COIN ，并且与传统的图像压缩算法具有竞争力。此外，论文中证明了元学习INRs在下采样图像上已经优于JPEG2000和一些RDAE。最后，通过将论文中的方法直接应用于 3D 数据压缩来强调基于 INR 的图像压缩的普遍性，其中论文中的算法优于传统的算法 Draco。

难点：

(1) 即使使用最简单的传统算法，直接方法也很难竞争。

(2) 由于INRs通过对特定实例过拟合对数据进行编码，因此编码时间被认为是不切实际的。为此，论文做出了两个贡献。首先，我们提出了基于 INR 的压缩元学习。我们利用基于模型不可知元学习(MAML)的INRs元学习的最新进展来寻找权值初始化，可以用更少的梯度更新压缩数据，并产生更好的率失真性能。其次，我们将SIREN与位置编码相结合。

名词解释：

元学习：元学习的目标是让模型学会如何学习。具体来说，元学习让模型在学习过程中变得更智能，能够适应新的、以前未见过的任务。好比是在训练一个学习算法，而不仅仅是一个完成特定任务的模型。
元学习的目标是让模型学会如何学习。具体来说，元学习让模型在学习过程中变得更智能，能够适应新的、以前未见过的任务。好比是在训练一个学习算法，而不仅仅是一个完成特定任务的模型。
率失真性能：

- 率（Rate）： 表示压缩的效率，通常以比特率（bits per second）的形式表示。更高的比特率意味着更高的压缩速度，但也可能伴随着更高的数据量。
- 失真（Distortion）： 表示压缩后与原始数据之间的差异，即信息的损失。更低的失真表示压缩后的数据质量更接近原始数据，但可能需要更多的比特来表示。
- 在保持合理的压缩率的同时尽量减小失真。提高率失真性能通常表示压缩算法在相同的压缩率下能够保持更高的数据质量，或者在相同的数据质量下能够实现更高的压缩率。

INRs:

INRS是通过将数据表示为从坐标到值的连续函数来存储基于坐标的数据，例如图像、视频和3D形状。

4. Pipeline

4.1. 基于隐式神经表示的压缩

INRs 在网络权重 θ 中隐式存储所有信息。INR 本身的输入是坐标P，不包含任何信息。编码过程相当于训练 INR。解码过程相当于将一组权重加载到网络中并在坐标网格上进行评估。传输过程中只需要存储θ⋆，网络架构上采用SIREN，使用ω = 30的正弦激活的MLP。

而这个输入的 p 通过位置编码在这个编码中，引入了一个尺度参数 σ 以调整频率间隔，并将频率项与原始坐标 p 进行连接（就像在 SIREN 代码库中一样）。该编码的形式可以表示为：

其中 L 是使用的频率数量。这个编码的目的是将原始的一维坐标 p 转换为包含不同频率的高维向量 γ(p)，以便在模型中更好地捕捉输入的复杂结构。

4.2. 使用随机初始化的基本方法

4.2.1. 第1阶段：过拟合

第一阶段，输入单张图片使得INR网络学习该图片的特征，过拟合学习该单张图片，给定一个图像 x 和一个坐标网格 p，最小化目标：

。使用均方误差来衡量真实目标和INRs输出的相似性

。

4.2.2. 第2阶段：量化

由于过拟合而产生的模型权重是单精度浮点数，每个权重需要32位。为了减少内存需求，作者使用了AI Model Efficiency Toolkit (AIMET)1 对权重进行了量化。7-8 范围内的位宽导致我们模型的最佳率失真性能。

4.2.3. 第3阶段：量化后优化

AdaRound优化：使用AdaRound方法，这是一种二阶优化方法，用于智能地决定是将权重向上舍入还是向下舍入。这样做的目的是更精细地控制量化误差，以提高性能。

Quantization Aware Training (QAT)：在量化后，通过QAT对权重进行微调。这个步骤的目标是在一定程度上纠正量化误差，提高模型的性能。由于量化是不可微的，作者使用Straight Through Estimator (STE) 来计算梯度，以便在反向传播期间绕过量化操作。