用于图像分割的自监督学习(Self-Supervised Learning)方法综述

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

本篇分享论文

Self-Supervised Learning for Image Segmentation:A Comprehensive Survey ,自监督学习在图像分割中的全面综述。
  • 论文地址:https://arxiv.org/pdf/2505.13584


图像分割与自监督学习背景

图像分割是将图像中像素按语义或实例划分的核心视觉任务,广泛应用于医学成像、智能交通、农业监控等领域。传统方法多依赖手工特征(如阈值、区域生长、GraphCut等)完成分割,但受限于特征表达能力。

深度学习时代兴起后,基于卷积神经网络(如FCN、U-Net、DeepLab等)的监督分割方法取得了显著进展,但需要大量像素级标注,标注成本高昂。为降低对标注的依赖,自监督学习(SSL)通过设计预设任务利用海量未标注数据学习有用特征表示,成为缓解标注瓶颈的有效范式。

SSL 在分类、检测和分割等下游任务中表现突出,尤其在语义分割任务上潜力巨大。因此,对现有SSL分割方法的综述有助于跟踪进展、启发新研究。


方法演进:传统、监督与自监督

图1:三种广泛使用的图像分割技术

传统图像分割方法主要基于低级特征或统计假设,例如阈值分割、图像分割算法(如SLIC超像素)、能量最小化(GraphCut、随机游走)等。这些方法易受噪声影响,泛化能力有限。

随着深度学习兴起,端到端的监督分割方法迅速普及:FCN(全卷积网络)首次实现了像素级分割,U-Net 系列在医学分割中表现优越,DeepLab系列结合空洞卷积和CRF获得高精度结果等。这些方法依赖大量标注:监督学习“需要大量精确标注的数据才能取得良好的结果”。

相比之下,自监督学习通过构造无需人工标注的预设任务学习图像表示。SSL 预训练的网络可以在下游分割任务中快速迁移或微调,减少对标注的依赖。

由此形成了从传统手工方法 → 大规模监督分割 → 自监督表征学习的演进:自监督分割方法利用无标注数据缓解标注成本,为图像分割开辟了新路径。


图像分割的三个子任务及SSL策略

图2:SSL驱动的模型构建流程图

图像分割任务旨在为图像中每个像素赋予标签,示例如上图将桌面场景中的像素按语义区域进行了不同颜色编码。

图3:三类主要的图像分割方法图示
  • 实例分割(Instance Segmentation)需要同时检测每个可数物体并生成对应掩码,对每个物体实例独立分割;

  • 语义分割(Semantic Segmentation)则仅区分像素类别,为每个像素赋予类别标签,不区分实例;

  • 全景分割(Panoptic Segmentation)将两者统一:对「可数物体(things)」执行实例分割,对「不可数区域(stuff)」执行语义分割。

Kirillov 等定义全景分割为统一输出完整场景分割的方法,并提出Panoptic Quality(PQ)度量同时评估这两类分割性能。

针对这三类任务,SSL策略主要集中在学习通用特征并适配不同分割需求。通常的做法是先用SSL任务对卷积骨干网络进行预训练,再在有或少量标注的分割数据上微调。对语义分割而言,通过像素级自监督任务(如CPC的密集预测、生成型补全等)可获得更精细的特征,有研究将局部对比学习(如PixelContrast、DenseCL等)应用于密集分割。

实例分割任务则可能结合区域级的SSL任务,例如利用对比学习或伪标签生成来学习实例级特征。全景分割需要兼顾语义与实例信息,当前主要依赖从SSL获得的强大特征表示,再通过多任务网络输出对应分割结果。

总的来看,SSL方法在分割任务中一般作为特征提取层的预训练手段,其输出特征为后续分割头提供更好的初始条件,从而提高分割准确度和数据效率。


自监督预训练任务分类

自监督预训练任务大致分为三类:预测型(Predictive)、生成型(Generative)和对比学习(Contrastive)。每类包含多种代表性任务及相应损失函数:

预测型方法

通过预测图像某种属性或重排来学习表示,通常使用交叉熵损失。代表性任务包括:

  • 拼图(Jigsaw):将图像划分为多个补丁并随机打乱顺序,模型学习还原正确顺序。Noroozi 等设计了Context-Free Network(Unsupervised learning of visual representations by solving jigsaw puzzles,ECCV 2016),对每个打乱的九宫格图像块进行处理,使模型学习物体部件与空间关系。损失为预测每个补丁的正确位置的交叉熵。

图4:拼图图解
  • 切片顺序预测(Slice Order Prediction):切片顺序预测是一种典型的预测型自监督任务,主要应用于处理具有体积信息的图像数据(如CT、MRI等3D医学图像)或视频序列。在该任务中,模型被训练用于判断一组图像切片或帧是否处于正确的顺序,从而迫使网络学习时序或空间结构特征,代表如Misra(Shuffle and learn: unsupervised learning using temporal order verification,ECCV 2016)的工作。

图5:切片顺序预测图解
  • 旋转预测(Rotation):Gidaris 等(Unsupervised representation learning by predicting image rotations,ICLR 2018)提出对图像随机旋转0°、90°、180°、270°后让网络预测角度标签。该简单任务强制网络学习几何和语义特征,训练使用4类交叉熵损失,实验表明能显著提升特征质量。

图6:旋转预测任务概述
  • 魔方重排(Rubik’s Cube):Zhuang 等(Selfsupervised feature learning for 3d medical images by playing a rubik's cube,MICCAI 2019)将3D医学体数据视为「魔方」,对体素网格块进行重排,并训练网络恢复原始体块顺序。此任务可扩展2D拼图思想,尤其适合医学体数据。后来版本(Rubik’s Cube++)通过同时预训练上采样和下采样模块改进效果。损失一般为预测每块正确位置的分类损失。

图7:类似魔方重排的预训练任务图解

生成型方法

通过生成或恢复图像内容来学习表示,多采用像素级重建损失(如均方误差)或对抗损失。常见任务有:

  • 图像上色:将彩色图像转为灰度输入,让网络预测色彩。Zhang 等(Colorful image colorization,ECCV 2016)将颜色量化为离散类别并使用交叉熵回归,生成具有多样性的彩色化效果。实验表明,色彩化作为预训练任务可学习到丰富的语义信息。

图8:编码器-解码器网络从灰度图像中预测可能的颜色
  • 图像去噪:使用去噪GAN或者自动编码器(Denoising Autoencoder,DAE),即对输入图像加入噪声后,训练网络重构无噪图像。Vincent 等将此思想堆叠在深层网络中,利用均方差(MSE)损失提高表示鲁棒性。

图9:基于GAN的去噪概念图
  • 图像补全(Inpainting):Pathak 等提出在图像上遮盖一块区域,要求生成缺失部分,类似拼图填空。训练时可使用像素重建损失和对抗损失,使生成区域既与上下文一致又语义合理。Context Encoders 等验证了此任务学习到的特征具备语义结构知识(Context encoders: Feature learning by inpainting,CVPR 2016)。

图10:利用AE进行自监督图像补全预训练概念图
  • 上下文还原(Context Restoration):旨在迫使模型从扰乱后的图像中学习重建其原始结构,从而获得对图像整体语义与结构布局的理解。与图像补全(inpainting)不同,上下文还原不对图像进行随机遮盖或填充空洞,而是通过交换图像中的两个非重叠区域,从而打乱其上下文,再训练模型恢复原貌。

算法 1

对比学习方法

图11:自监督对比学习概念图

通过拉近(正例)和推远(负例)样本对的特征距离来学习表示,多用 InfoNCE 等对比损失。典型方法有:

  • 对比预测编码(CPC):Oord 等提出在高维数据中预测未来特征表示。基本思想是:对图像或序列的不同片段编码后,利用自回归模型在潜在空间预测未来特征。为使预测可解,采用对比损失(InfoNCE)区分正确预测与随机负样本。对CPC的改进将其用于图像分割:针对图像空间划分重叠块并学习上下文预测,通过Dense/Local方案实现像素级表示学习。

  • SimCLR:Chen 等提出了一个简化的对比学习框架。SimCLR 对同一图像施加两种随机强变换生成正样本对,其它不同图像构成负样本。使用交叉对比损失最大化正样本对特征相似度。实验表明,通过组合合理的增强策略和较大批次,对比学习可以在ImageNet上获得与监督训练相当的特征质量。

图12:SimCLR流程图
  • MoCo/BYOL/SwAV 等:尽管本综述侧重三类任务,上述方法后续涌现了动量对比(MoCo)、自举对比(BYOL)、SwAV(交换视图聚类)等改进,它们均围绕实例对比或聚类学习进一步提升表示能力,但核心思想仍是最大化相似视图间一致性。

图13:MoCo流程图
图14:BYOL流程图
图15:PGL流程图
图16:SwAV流程图
图17:SimSiam流程图

以上自监督任务各有特点:预测型任务通过明确定义的几何/位置目标逼网络捕捉图像结构;生成型任务通过图像重建和补全激励网络捕捉像素级语义与纹理;对比学习则侧重学习判别性特征以区分样本。常见损失包括分类交叉熵、L2重建误差、信息熵式对比损失等。它们已在分类、目标检测等领域取得成功,也被应用于分割预训练中,例如使用CPC/SimCLR预训练后再微调分割网络。

表2:主流预测式与生成式自监督学习方法的对比结果
表3:基于关键特征的主流对比学习方法对比结果

基准数据集与评估指标

SSL分割算法常用的基准数据集与评估流程沿袭传统分割研究。典型语义分割数据集包括PASCAL VOC型(20类目标+背景),Cityscapes型(19类城市场景),ADE20K(150类场景),它们的性能通常以平均交并比(mean IoU)衡量。

表4:广泛用于语义分割研究与开发的公开可用数据集

Cityscapes数据集官网明确使用Jaccard指数(IoU=TP/(TP+FP+FN))作为像素级分割的主要评价指标。实例分割任务一般使用COCO评测指标,即对生成的掩码计算AP(Average Precision),综合不同IoU阈值的平均精度(mAP)评估检测与分割质量。全景分割评测则使用PQ指标,将每个类的实例匹配后计算检测质量(Panoptic Quality)。此外,一些应用还引入其他指标,如加权IoU(iIoU)评估对小物体分割的精度。

实验流程通常为:用未经标注或少量标注的图像进行SSL预训练,再在有标注的分割数据集上微调网络,最后在测试集上报告上述指标。


挑战与未来方向

尽管SSL已显著提升了分割预训练效果,但仍面临若干挑战。

首先,许多对比学习方法(如CPC)倾向学习局部纹理特征,对长程上下文捕捉较弱。CPC等方法过分聚焦局部块预测易过拟合低级模式,在需要整体场景理解的任务中表现有限。

其次,计算开销大:对比损失需要大量负样本,密集SSL方法如像素对比计算开销高。生成式预训练(如GAN、AE)虽然可获全局上下文,但其重建损失在学习高层语义上有时不够区分度。此外,数据和任务差异也是难点:2D自然图像上的SSL策略在3D医学或其他域上直接应用存在性能下降,需要根据数据属性设计新的预设任务。

最后,对比学习中负样本挖掘、歧义样本处理等问题,以及语义分割中特有的类别不平衡、细节保护等,也为SSL研究提出了新的要求。

未来研究方向包括:设计更贴近分割任务需求的自监督任务,例如结合几何/语义信息的多任务SSL或加入少量弱标签的半监督训练;探索Transformer等新架构下的SSL(例如ViT与自监督分割结合);利用多模态(RGB-D、光谱)数据进行对齐式SSL;发展新的无监督分割评价指标和大规模无标签数据集;以及将对比与生成方法有机结合,实现更有效和高效的表示学习。随着SSL理论和技术的深入,预计会出现更多跨领域、跨任务的自监督分割方案。

最新 AI 进展报道
请联系:amos@52cv.net

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

Vivado2023是一款集成开发环境软件,用于设计和验证FPGA(现场可编程门阵列)和可编程逻辑器件。对于使用Vivado2023的用户来说,license是必不可少的。 Vivado2023的license是一种许可证,用于授权用户合法使用该软件。许可证分为多种类型,包括评估许可证、开发许可证和节点许可证等。每种许可证都有不同的使用条件和功能。 评估许可证是免费提供的,让用户可以在一段时间内试用Vivado2023的全部功能。用户可以使用这个许可证来了解软件的性能和特点,对于初学者和小规模项目来说是一个很好的选择。但是,使用评估许可证的用户在使用期限过后需要购买正式的许可证才能继续使用软件。 开发许可证是付费的,可以永久使用Vivado2023的全部功能。这种许可证适用于需要长期使用Vivado2023进行开发的用户,通常是专业的FPGA设计师或工程师。购买开发许可证可以享受Vivado2023的技术支持和更新服务,确保软件始终保持最新的版本和功能。 节点许可证是用于多设备或分布式设计的许可证,可以在多个计算机上安装Vivado2023,并共享使用。节点许可证适用于大规模项目或需要多个处理节点进行设计的用户,可以提高工作效率和资源利用率。 总之,Vivado2023 license是用户在使用Vivado2023时必须考虑的问题。用户可以根据自己的需求选择合适的许可证类型,以便获取最佳的软件使用体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值