Another Way to the Top: Exploit Contextual Clustering in Learned Image Coding

当前LIC中广泛使用卷积和attention,本文提出基于上下文聚类的智能图像压缩方法(CLIC),依靠聚类和局部注意力来进行获得紧凑的图像特征。

contribution:

1 提出基于上下文聚类的图像压缩算法,利用基于线性的聚类和局部注意力来表征图像中的像素相关性,表现出由于基于卷积和窗口注意力的网络;

2 提出引导后量化滤波,以减轻量化误差的传播和积累,同时在初始解码阶段实现内容自适应处理,提高率失真性能;

3 在各测试集上相比VVC实现了约10%的BD-Rate降低。

整体网络结构

如图所示,主编码器和主解码器都包含四个阶段,每个阶段包含一个下采样/上采样操作和一组上下文聚类块,下采样通过MLP、Unshuffle、Layernorm、Linear实现,而上采样仅通过Linear和shuffle实现。下采样/上采样后,堆叠上下文聚类块(contextual clustering block, CCB)来利用像素间的空间相关性,输出紧凑的特征。

输入时将每个像素的坐标(x,y)添加为最后两个通道(形成5通道的输入),每个点由其RGB属性(r,g,b)和位置信息(x,y)组成。对于上下文建模,直接结合棋盘式空间上下文和非均匀通道生成SCCTX。在主解码端首先利用引导PQF对量化误差进行补偿,并逐步上采样和解码,最后通过5x5转置卷积生成重建图像。

ContextualClusteringBlock

如图所示,CCB采用类似Metafomer的结构,Token Mixer采用聚类操作实现,Channel Mixer采用MLP实现。

上下文聚类——contextual clustering

与卷积在感受野中将一组无序的点进行处理,CCB将图像视为通过聚类进行特征提取,每个点包含其属性特征和位置特征。

聚类算法流程如下:

1 p 通过全局平均池化将全局上下文添加到所有的点,
                        Pi=Pi+γ/n * ΣPi
其中 γ 是一个可学习参数
2 不进行实际类似 k-means 的聚类过程,而是通过对特征图进行平均池化得到 c 个聚类中心并用两层 MLP 来预测每个聚类中心的偏移量
计算具有 c 个聚类中心的所有点的余弦相似矩阵,基于此进行聚类
根据聚类结果进行特征变换。在每个聚类中,根据点与聚类中心的相似性进行变换。假设一个聚类有 m 点,首先对所有点进行线性变换得到其值向量 vi ,其中心点 cv 以步骤 2 中的方法获得 ( 是否重新计算中心 ) 。输出特征
                        F=1/(1+m) *(cv+Σsigmoid si +β)*vi)

其中αβ是可学习参数,si是第i个点和其聚类中心 cosine_similaritycv 用以增强\明确其所属的类。

 note:实际没有进行类似k-means的迭代聚类,而是通过网络预测聚类中心。

重新排序

聚类后,将得到的潜在特征根据其位置重新排序到聚类前的图像形状。

注意力增强

上下文聚类方法主要关注簇内相互作用,这限制了它的局部邻域相关性。为此,我们进一步增江了上下文聚类后的注意力机制,以利用聚类间相关性。该模块包括空间注意力(SA)和通道注意力(CA)。

Guided Post-Quantization Filtering

由于y所有特征都进行了量化以进行熵编码,这不可避免地引入了量化误差。在解码过程中,这些误差将会逐级传播和累积,严重影响重构质量。为了解决这个问题,在主解码器地一开始使用GuidedPQF来补偿量化误差。与此前地方法不同,GuidedPQF生成一组系数来实现内容自适应地量化误差补偿。

其中a是从y中获得的权重系数。

量化误差可以表示为

对于M通道,GuidedPQF的目标函数可以优化为

由于(\epsilon _i)^2对每个i都是一个常数,可以直接忽略。最后整体损失函数为:

实验结果

本文提出的方法在压缩性能上相比VVC实现了接近10%的BD-Rate节省,在复杂度上在与ELIC使用几乎相同的上下文模型的情况下使用更多的参数,实现了更低的计算复杂度,同时编解码时间也与ELIC相当。

结论

本文提出一种基于上下文聚类的智能图像压缩方法。将图像视为单个像素点的集合,并通过聚类算法将所有的点聚为几个簇,并利用簇内相关性。然后,将得到的特征根据其位置进行重新排序,并进一步利用局部注意力减小簇间冗余,实现了更紧凑的表示。需要注意的是,本文的聚类不进行迭代,因此不会增加额外的时间复杂度。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值