【图像压缩】替换输入改善压缩+实现可变比特率

最新推荐文章于 2022-09-21 16:26:53 发布

hahalidaxin

最新推荐文章于 2022-09-21 16:26:53 发布

阅读量404

点赞数 1

分类专栏：图像压缩视听觉处理文章标签：图像压缩可变比特率 SNIC 自监督

本文链接：https://blog.csdn.net/hahalidaxin/article/details/118058231

版权

视听觉处理同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

图像压缩

13 篇文章 23 订阅

订阅专栏

本文介绍了一种名为SNIC的通用增强神经图像压缩方法，通过将输入图像视为可训练参数进行优化，以提升压缩性能。研究了最优替换图像策略，并探讨了比特率和失真控制的实现方式，展示了SNIC在提升压缩效果和比特率控制方面的有效性。

摘要由CSDN通过智能技术生成

Wang, X., Jiang, W., Wang, W., Liu, S., Kulis, B., & Chin, P. (2021). Substitutional Neural Image Compression. http://arxiv.org/abs/2105.07512

绪论

本文提出了一种通用的增强神经图像压缩的模型SNIC。核心思想是，将输入图像看做可训练参数，优化得到最优输入。本方法可行的根本原因在于：图像压缩本质上是一种自监督过程，因此，在推理过程中，可以根据反馈改善模型参数或输入以提升性能表现。

方法

最优替换图像

把图像压缩看成两步映射过程，统一表示为 $\hat{x} = T(x)$ 。作者提出疑问：当压缩一个指定的图像 $x_0$ 的时候，以 $x_0$ 为输入是否可以得到最优压缩效果？本文的想法为，寻找一个替代的 $x_0^{'}$ 作为输入，执行同样的两步映射，如果能够使目标函数进一步下降则意味着可以通过将 $x_0$ 替换为 $x_0^{'}$ 来提高压缩性能。SNIC优化问题如下：

$x_0^{*} := \mathop{arg\ min}_x \lambda D(\hat{x}, x_0) + R(x)\quad s.t.\ \hat{x} = T(x)$ （3）

需要指出的是，重建质量的比较对象依然是 $x_0$ ，因为最终目标是要通过优化输入来获得对原图像 $x_0$ 更好的重建效果。以上最优化问题，在SNIC中被替换为：

$x_0^{*} := \mathop{arg\ min}_x \lambda_s D_s(\tilde{x}, x_0) + R_e(x)\quad s.t.\ \tilde{x} = T_e(x)$

其中替换不可导操作（改为 $\tilde{x} = T_e(x), R_e(x)$ ）。

比特率、失真控制

用来生成替换图像和用来训练模型的损失函数是不同的。比特率控制可以通过改变损失函数中的 $\lambda_s$ 实现。类似的，（3）中失真项也可以根据需要替换，不必和训练时相同。

直接比特率、失真控制

$\lambda_s$ 和结果比特率之间的关系未知而且可能不是线性的，因此调节 $\lambda_s$ 来调节比特率很不方便。可以通过直接修改损失函数达到直接控制的效果：

$\mathop{minimize}_x D_s(T_e(x), x_0) + k\ max \{ R_e(x)-R_t, \tau\}$ （4）

其中k是一个很大的常数，用以惩罚。因为梯度更新的时候可能会产生偏差，使用很小的值 $\tau$ 弥补这种偏差。类似的，失真控制：

$\mathop{minimize}_x R_e(x) + k\ max\{ D_s(T_e(x), x_0) -D_t, \tau\}$

直接比特率控制的精度

影响直接比特率控制精度的因素：1）不可导操作的替换引入错误 2）优化问题通过梯度下降解决，可能不是最优解 3）x实际上是离散的（8-bit color RGB），可能会产生四舍五入错误。

替换隐层表示

除了替换输入外，优化以替换隐层表示也是一个可以尝试的方向。

实验

提升图像压缩性能

以下使用真实比特率而非估计结果。端到端模型ICLR2017，超先验模型ICLR2018。对于ICLR2017和ICLR2018中训练得到的每个模型实例，为每个实例单独应用SNIC，其中 $\lambda_s$ 设置与训练时 $\lambda$ 相同，经过100步梯度下降，在每次梯度更新后将像素值裁剪到 $[0,1]$ 。下图为结果，体现了SNIC可以提升压缩效果的功能。

比特率控制

基于ICLR不同模型实例，使用（4）控制比特率，训练得到不同颜色曲线如下图。可以看到，当比特率比较高的时候，上界略高于原模型曲线，曲线下方变化范围比较大，当比特率比较低的时候变化范围就很小了，当到达界限的时候，即使继续改变loss函数中的值压缩效果也不会变化。SNIC高于原曲线的BPP范围约0.3，这说明可以通过在较少的模型上应用SNIC以覆盖原始曲线。

比特率控制的精度

（4）给出了一种明确指定目标BPP的方法，但是由于近似、噪声注入和舍入误差等因素，真实的BPP可能与目标不同。图6展示了重复采样结果BPP的分布（同一目标BPP重复100次），证明在实验中标准差足够小（大部分小于0.001），表明该方法是有效的。注意，平均值可以用额外一轮的生成为代价通过（4）中的 $\tau$ 来校准。

SNIC的速度

hahalidaxin

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【图像压缩】替换输入改善压缩+实现可变比特率

Wang, X., Jiang, W., Wang, W., Liu, S., Kulis, B., & Chin, P. (2021). Substitutional Neural Image Compression. http://arxiv.org/abs/2105.07512
复制链接

扫一扫

专栏目录