Pixel-Level Clustering Network for Unsupervised Image Segmentation论文分享(侵删)

原文地址:https://arxiv.org/abs/2310.16234

author={Cuong Manh Hoang and Byeongkeun Kang}
title={Pixel-Level Clustering Network for Unsupervised Image Segmentation}

一、介绍

提出了一个像素级聚类框架分割图像区域,而不使用地面实况注释。该框架包括具有注意力机制的特征嵌入模块、特征统计计算模块、图像重建和超像素分割,以实现精确的无监督分割。此外,我们提出了一种训练策略,该策略利用每个超像素内的一致性,相邻超像素之间的相似性/不相似性以及图像之间的结构相似性。为了避免潜在的过分割所造成的基于超像素的损失,还提出了一个后处理方法。此外,提出了一个扩展的无监督语义分割方法。

引入了一个特征嵌入模块(FEM)来替换CNN中的典型残差块。FEM采用通道注意机制和融合激活函数。此外,我们建议显式地聚合本地和全局上下文信息。最后,我们提出了一种新的损失函数,利用超像素分割和图像重建。图像重建的损失计算使用结构相似性(SSIM)和像素级相似性。使用超像素的损失考虑每个超像素内的内部一致性和相邻超像素之间的内部相似性/不相似性。FEM采用通道注意机制和融合激活函数。使用分块结构差异和像素级差异来计算图像重建损失。

(a)输入图像;(B)通过仅使用每个超像素内的帧内一致性Llocal训练的所提出的网络的结果;(c)所提出的网络的结果;(d)包括基于图的后处理方法的所提出的框架的结果。

二、方法

像素级聚类网络

该框架旨在通过利用特征统计,融合局部和全局上下文特征,并采用注意力机制,图像重建,显式多尺度和超像素分割来实现精确的无监督图像分割。为了鲁棒地确定聚类的合并或分离,使用从CNN提取的特征来计算每个超像素的特征统计。然后利用这些统计数据来比较相邻的超像素。特征嵌入模块(FEM)将注意力机制与残差单元的结构相结合,以实现准确的分割。注意机制使神经元能够专注于重要特征并抑制不相关的表征,而残差结构则确保稳定的训练。结合局部和全局特征的显式融合,这些有助于学习和提取更鲁棒和有意义的特征,用于无监督图像分割。

I、I0.5和S分别表示图像、其下采样图像和提取的超像素。E和(F1,F2,F3,F4)分别表示超像素分割和四个特征嵌入模块。(G1,G2)和(G1,G2)分别表示两个图像重建模块和重建图像。Z、R、C、↓ 2和↑ 2分别表示特征统计计算模块、聚类预测模块、级联、以因子2下采样和以因子2上采样。Llocal和Lglobal分别表示超像素内和相邻超像素之间的损失项。Lrec表示图像重构损失。

具体过程:

我们结合联合收割机的特征图提取的输入分辨率与那些提取的一半的输入分辨率。我们使用四个特征嵌入模块(图3中的F1,F2,F3,F4)执行特征提取。给定输入图像I,F1以输入分辨率提取对应于相对局部特征的特征图。我们使用基于双三次插值的下采样而不是步幅卷积来显式地对I进行2次下采样,并从下采样图像I0.5中提取特征图。所提取的地图包含相对全局的特征。然后,我们使用最大池化将F1的输出降采样2,并将其与F2的输出连接(C)。F1和F2的输出相互补充,因为前者提供更多的局部信息,而后者包含更多的全局表示。F3获取连接的映射并提取对应于全局上下文信息的表示。我们将F1的输出和F3的上采样输出连接起来,并使用F4对其进行处理。

超像素分割用于计算训练网络的损失。首先,图像I通过超像素分割算法E以获得一组超像素S。假设超像素分割是准确的,则计算损失以确保超像素内的像素聚类在一起。由于超像素不直接用于分割图像,因此超像素分割中的微小不准确对于计算训练网络的损失是可以接受的。

图像重建模块(G1,G2)引导聚类网络编码用于鲁棒聚类的足够信息。它们迫使网络在中间阶段考虑图像的整体内容,而不是在早期层进行聚类预测。每个模块由一个1 × 1卷积层组成,它将通道的数量减少到颜色通道的数量。我们的经验表明,图像重建模块提高精度。

给定图像I,应用超像素分割算法E以获得超像素S。由于超像素分割不依赖于CNN中的参数,因此每个图像仅执行一次超像素提取。

聚类网络也被赋予图像I。首先,使用双三次插值将图像下采样2。然后,F1处理原始图像,F2处理下采样图像。F1的输出使用最大池化以2进行下采样,并与F2的输出级联。然后通过F3处理所得到的级联特征图,并使用转置卷积以2倍进行上采样。最后,F1的输出和F3的输出被连接并由F4处理。F1、F2、F3和F4的输出分别有64、64、128和128个通道。

FEM具有类似于残差块的结构(He等人,2016年c,a)。在图4中,底部连接对应于一个快捷连接,由一个3 × 3卷积层和批处理归一化组成(Ioffe和Szegedy,2015)。中间连接是一个典型的堆叠卷积模块,包含两个堆叠块,每个块都具有批量归一化,激活函数和3 × 3卷积层。我们使用ReLU和tanh激活函数的加权求和(Li等人,2020年)的启动功能。在两个堆叠块之后,我们应用类似于高效通道注意力(ECA)块的注意力机制(Wang等人,2020年)。注意力机制通过每个通道的预测重要性来缩放堆叠块的输出,这是由图4中顶部的层预测的。这些层由全局平均池化、1D卷积层和sigmoid激活函数组成。最后,通过将快捷连接的输出与堆叠卷积模块的重要性缩放输出相加来获得FEM的输出。图4和图5分别示出了(F3,F4)和(F1,F2)的结构。主要的区别是没有批量规范化,以及在F1和F2的中间连接前面有一个激活函数。由于F1和F2处理图像而不是特征图,因此这些模块不会在前面应用它们。

F3和F4的特征嵌入模块(FEM)的架构。每条线和每个3D体积分别对应于一个操作和一个特征图

F1和F2的特征嵌入模块(FEM)的架构。

R使用F4的输出来预测每个像素属于每个聚类的概率。为了实现这一点,使用了1 × 1卷积层和批归一化。然后通过选择具有最高概率的聚类来确定每个像素的聚类标签。

三、损失函数

损失函数由三项组成。第一项旨在确保每个超像素内的像素属于同一个聚类。第二项鼓励相邻的超像素属于相同的集群,如果它们对应的特征是相似的。第三项编码聚类网络中的图像信息。

为了训练聚类网络,我们首先从输入图像I中提取超像素。具体来说,我们使用多尺度组合优化(MCG)(Arbel 'aez等人,2014)以提取K个超像素{S k}K k=1。然后,我们使用提取的超像素来计算损失。在每次迭代时,所提出的模型将I中的像素聚类成多个片段(聚类)。假设超像素分割提供可靠的结果,则每个超像素内的像素应属于同一聚类。因此,我们为每个超像素找到最频繁的聚类标签,并将其视为伪地面实况。然后,我们通过将所提出的模型的输出与伪地面实况进行比较来计算逐像素交叉熵损失。

 公式推导:

对于每个超像素S k,如下找到最频繁的聚类cm k,|cjk|表示属于聚类ci并且在超像素Sk中的像素的数量。:

构造Cm n,q,其包含每个像素的伪地面实况。然后,交叉熵损失计算如下:

其中Q表示输出通道的数量,其对应于簇的最大数量。Pn,q表示模型在(n,q)处的输出。1(Cm n,q,q)表示指示符函数,如果Cm n,q和q相同,则返回1,否则返回0。N和n分别表示I中的像素总数和每个像素的索引。

我们还计算另一个损失项Lglobal,以确保如果像素属于相邻超像素并且具有相似特征,则将它们聚类在一起。利用特征统计计算模块计算损失。

|S K|表示超像素Sk中的像素的数量。

连接性,如果对应的超像素是相邻的,则节点通过边连接。具体地,如果任何两个不同的超像素共享公共边界,则对应的节点通过边缘连接。对于相似性,亲和矩阵A ∈ RK×K计算如下:

其中,如果Si和Sj是不同的且相邻的超像素,则Bi,j是1,否则Bi,j是0。α1和α2是超参数。

|A|表示由等式计算的A中所有元素的总和。tr(·)表示跟踪操作。H ∈ RK×Q包含每行超像素属于每列聚类的概率。从所提出的模型中给定P,首先应用softmax函数进行归一化。然后,对于每个超像素,对softmax函数的输出进行平均以获得H的每行。

图像重建损失:

I和I0.5分别表示原始分辨率和半分辨率下的重建图像。

MS-SSIM+ L2损耗是MS-SSIM损耗和L2损耗的加权和。

其中η是在MSSSIM损耗和L2损耗之间平衡的加权系数。GσM G表示高斯滤波器,对于不同尺度M,标准偏差为σM G。σ1 G、σ2 G、σ3 G、σ4 G和σ5 G分别为0.5、1、2、4和8。*表示卷积运算。

γ1和γ2是平衡三个损失项的加权系数。

训练过程:

四、后处理

该方法包括构造无向图并使用图割来获得最终的分割结果。每个聚类被表示为无向图中的节点,并且使用图像梯度来计算边缘权重。最后,根据边缘的权值对边缘进行切割,得到最终的分割结果。

给定逐像素聚类结果I,通过将I中的每个段I S视为顶点来构造无向图。为了计算边缘权重,首先将输入图像I转换为CIELAB颜色空间中的图像I/I。然后,使用IXI沿x轴和y轴沿着计算导数(Ix,Iy)。

x和y分别表示沿沿着x轴和y轴的梯度运算。然后,如下计算边权重:

gx i,j和gyi,j分别是CIELAB颜色空间中S i和S j之间沿着x轴和y轴的绝对差的平均值。

S x i,j由沿沿着x轴的S i和S j之间的边界处的像素组成。

最后利用该图对高权值的边缘进行裁剪,得到最终的分割结果。该图切割过程涉及将边权重与预定阈值进行比较,并且所得到的图中的每个连接组件形成一个段。

五、实验

数据集:Berkeley分割数据集(BSDS 300和BSDS 500)和PASCAL VOC 2012数据集。BSDS 500数据集包含500张图像,其中200张用于训练,100张用于验证,200张用于测试。BSDS 300数据集仅包括BSDS 500数据集的训练和验证部分。

对于BSDS数据集,我们利用分割覆盖(SC)、概率兰德指数(PRI)、信息变化(VoI)、全局一致性误差(GCE)和边界位移误差(BDE)五个度量来定量比较结果。

显示了BSDS 300数据集的定量结果。

BSDS 500数据集的定量结果。

在PASCAL VOC 2012数据集上评估了所提出的方法,并计算了平均交叉联合(mIoU)进行定量比较。

显示了使用BSDS 500数据集的定性结果。每行从上到下显示输入图像、地面实况以及FH、DIC和所提出的方法的结果。

显示了使用PASCAL VOC 2012数据集的定性结果。每行从上到下显示输入图像、地面实况以及FH、DFC,以及所提出的方法。

显示了使用BSDS 300数据集对拟议框架组件进行的消融研究。基线模型表示没有注意力机制(ECA)、图像重建模块和后处理步骤的框架。此外,基线模型仅使用Llocal进行训练。第一行和第二行分别显示基线模型和具有注意力模块(ECA)的模型的结果。第三和第四行显示了包含Lglobal和Lrec的结果。最后一行显示了拟议框架的结果。

显示了不同迭代次数的结果。该图显示了输入图像、地面实况、超像素分割结果以及所提出的网络在50、100和150次迭代时的结果。

显示了训练期间损失值的变化。

六、无监督语义分割的扩展

扩展方法:首先将所提出的方法应用于每幅图像,将图像分割成多个区域。然后,使用分割区域的边界框将图像裁剪成多个补丁。裁剪图像的特征是通过将它们前向传播通过预训练的PVTv 2-B5主干来获得的和通过处理基于掩码的池化。主干使用Caron等人的自监督学习方法进行预训练,没有任何人工注释。基于掩模的池化聚合每个分割区域上的提取的特征。然后由可学习的分割头处理聚合特征以降低维度。最后,使用分割头的输出来确定k个聚类的中心,其中k是数据集中的语义类别的数量。对于聚类,通过余弦距离计算相似性。与STEGO,不采用基于条件随机场(CRF)的细化,因为所提出的方法产生高质量和详细的分割掩模。

使用COCO-Stuff数据集中的27个类来评估融合方法。定量结果表明,融合方法通过实现59.1%的准确度和33.6 mIoU优于先前的最先进方法。融合方法和STEGO的优点在于融合方法利用每个分割区域上的聚合特征,而STEGO使用像素级特征。

七、结论

我们提出了一种新的像素级聚类框架的无监督图像分割。该框架包括四个特征嵌入模块,一个特征统计计算组件,两个图像重建模块,和一个超像素分割算法。通过确保每个超像素内的一致性,利用相邻超像素之间的特征相似性/不相似性,并将输入图像与来自编码特征的重建图像进行比较,来训练所提出的网络。此外,我们还提供了一种后处理方法来克服超像素带来的限制。此外,我们提出了一个扩展的无监督语义分割,这表明了我们的方法的附加价值所提出的方法。实验结果表明,该方法优于以前的国家的最先进的方法。由于所提出的框架可以分割任何给定的输入图像,而无需任何地面实况注释或预训练,因此可以在各种真实场景中使用。例如,它可以帮助机器人抓住看不见的物体或从场景中发现新的物体。此外,它可以减少监督学习中像素级注释所需的工作量。

  • 14
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值