LC-FDNet: Learned Lossless Image Compression with Frequency Decomposition Network 论文笔记

最新推荐文章于 2023-05-05 09:40:35 发布

Mr_Sxd

最新推荐文章于 2023-05-05 09:40:35 发布

阅读量421

点赞数 2

文章标签：论文阅读人工智能计算机视觉

本文链接：https://blog.csdn.net/Mr_Sxd/article/details/128374822

版权

问题：现有的压缩方法没有考虑高频区的性能下降，对低频区和高频区进行了同等的考虑，对不同特征的区域给出了相同的编码策略。一般来说，在像素值快速变化的边缘或纹理附近的高频区域中很难获得最佳性能。

模型：LC-FDNet由自适应频率分解(AFD)、低频压缩器(LFC)和高频压缩器(HFC)组成。通过AFD将当前子图像分割成低/高频区域。LFC首先对低频区域进行压缩，然后HFC以低频区域为强先验对高频区域进行压缩。

图1

根据独特的分解方案将图像分解为子图像，其中第一个子图像由传统的无损压缩器压缩。然后，其余的子图像被图1顺序压缩。AFD使用先前编码的子图像和当前的子图像作为输入，将输入子图像分解为低频和高频区域，压缩器(LFC和HFC)对低频和高频区域进行不同的编码。由于低频区域通常被很好地预测，所以我们首先压缩低频分量。另一方面，高频区域通常表现出相对较大的预测误差，因此我们用额外的先验分别对它们进行编码，这些先验是编码的低频像素。也就是说，我们将低频分量作为额外的输入来压缩高频区域。

AFD生成误差方差图和误差方差阈值。误差方差图可以理解为网络产生的预测误差的大小。利用误差方差阈值对误差方差图进行阈值处理，将像素点分为低频像素点和高频像素点。由于误差方差取决于信道、空间位置和图像特征，我们设计阈值以适应这些因素。

图2

方法的总体流程如图2所示。给定输入图像x∈RH×W ×3，我们首先通过可逆的颜色变换[36]将RGB图像转换为YUV格式。然后我们以通道和空间方式分割图像。具体来说，我们将输入图像分为12个子图像xc,s∈R H/2 × W/2 ×1，其中c为通道索引(c∈{Y, U, V})， s为空间位置索引(s∈{a, b, c, d})。首先使用常规压缩算法对子图像xY U V,a = {xY,a, xU,a, xV,a}进行压缩。然后，剩下的子图像用我们的LC-FDNet逐个压缩，其中先前编码的子图像被用作输入。

可逆变换将RGB换到YUV。

12个子图编码顺序，Y-U-V，a-d-b-c。

对于初始子图像xY U V,a的压缩采用了JPEG-XL。

图3

LC-FDNet的架构。在该图中，我们考虑压缩y = xY,d给定xin = xY U V,a的情况。AFD部分首先接收xin，并使用误差方差图σy和误差方差阈值τy确定每个像素属于低频或高频区域。然后，LFC对子图像y的低频区域进行编码，HFC接收编码后的低频区域作为额外输入，并对剩余的高频区域进行压缩。解码过程在补充中提供。

每个子图像都需要LC-FDNet，因此总共有9个LC-FDNet(因为3个子图像是用JPEG-XL编码的)。这些网络不共享参数，因为每个网络对于每个子图像都是特定的。

是y的网络预测，其中更好的预测产生更紧凑的压缩。给定预测，残差计算为，这是真相子图像与预测之间的差值。由于得到的残差不是整数形式，我们对残差进行量化(四舍五入)。它被表示为qL，然后传递给熵编码器。

pL是量子化残差qL的估计概率分布，我们直接将概率分布估计为概率质量函数(pmf)。因此，pL的维数为H2 × W2 × C，其中Y通道C为511,U, v通道C为1021。在推导pL之前应用Softmax运算，使概率之和为1。

误差方差图σy∈R H/2 × W/2 ×1表示网络产生的预测误差大小的估计。我们设计误差方差图，通过以下损失来跟踪预测误差的大小:

这里，图中的每个值都可以解释为对应像素处的预测误差方差。数值越大，说明网络在该点的预测误差越大，说明该像素点属于高频区域。类似地，平滑区域，即低频区域产生低误差方差值。

Ps：

使用获得的误差方差图，我们应用简单的阈值将每个像素分为两类；低频或高频区域的像素。但是，阈值应根据通道、空间位置和图像特征进行调整。例如，与 U 和 V 相比，Y 通道中的错误方差通常更大。因此，Y 中的阈值应该更大。因此，我们让网络为每个子图像推导出特定的误差方差阈值 τy ∈ R，而不是固定阈值。请注意，单个输入图像导出 9 个阈值。

分类低频区域：

mH = 1 – mL

将重建损失定义为真实图像与预测子图像之间的L1损失：

将相应的频率掩码乘以LFC和HFC的预测误差。这使得只有低频分量对LFC的重建损耗有贡献，对于HFC也是如此。这使得LFC/HFC分别被指定用于低/高频区域。虽然重建损失在其他研究中经常被忽略，但我们认为采用这种损失可以带来稳定的训练和性能的提高。

码率损失用于最小化量化残差的真实概率分布(pqL，pqH)和估计的(Pl，pH)之间的交叉点。在形式上，它被定义为：

训练概率分布pL和pH，通过交叉熵损失对相应的量化残差(符号)qL和qH进行分类。这相当于每个符号的预期比特，因此我们可以直接最小化编码成本。为了限制每个频率分量在重构损失中的贡献，我们将频率掩码与相应的概率分布相乘。

总而言之，我们用损失来训练我们的网络：

其中λev和λbr是平衡超参数。在实验中，我们将λev和λbr都设置为1。

Mr_Sxd

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
LC-FDNet: Learned Lossless Image Compression with Frequency Decomposition Network 论文笔记

学习《LC-FDNet: Learned Lossless Image Compression with Frequency Decomposition Network》这篇论文时记下的笔记，方便自己学习。
复制链接

扫一扫