#今日论文推荐#无需标注,用Transformer来挖掘先验,MaskDistill:无监督语义分割新网络

#今日论文推荐#无需标注,用Transformer来挖掘先验,MaskDistill:无监督语义分割新网络

无监督语义分割任务的意义闭着眼睛想肯定是那几句话嘛:全监督语义分割标签费时费力,弱监督语义分割对标签依赖性减弱但仍然需要标签,这不,无监督语义分割的意义就来了。
无监督语义分割任务的目的是将可能属于同一类别的像素分为一组,值得注意的是,并不要求模型知道每个组真实对应哪一个语义类别。比如说一张图片里面有猫、狗、背景三个类别,模型将图片里的猫、狗、背景分为了三组,但是模型自己是不知道这三组像素与真实语义类别的对应关系的,只不过能将这些类别的像素区分开。
想要将分组和真实的类别对应起来,我看,文中的实验部分提到了两种设置:
Linear classifier:在无监督分割模型训练结束之后,将分割模型的参数Frozen,然后在分割模型产生的特征上额外加一层1*1卷积(即分类器),从而对应到语义分类。(所以对应想将分组对应到语义类别还是需要类别标签?所以我费这老大劲进行无监督语义分割干嘛?直接image-level的弱监督语义分割不香吗?VOC数据集的mIoU都能到70几了,这篇文章才62.)
Clustering:通过 Hungarianmatching [Kuhn, H.W.: The hungarian method for the assignment problem. Naval research logistics quarterly 2(1-2), 83–97 (1955) 6, 10] 将分组预测与GT进行比较,但是效果较差。
按本文所述,无监督语义分割在这之前分为两个主流的方法:
End to End类型:这一类型的方法,通过对图像进行数据增强来施加聚类一致性而实现聚类的功能(其实就是对比学习的思路?)。作者不建议这种方法,应该它们会让模型聚焦于图像的颜色、纹理等低级特征。我倒觉得这一类的方法挺优美而简洁的。
自下而上多阶段类型:首先,利用边缘检测或显著性估计来获取可能属于同一类别的的区域的先验信息。然后使用这些区域来学习语义embedding。最后,通过 K-means 对embedding进行聚类得到分割结果。作者更推荐这种方法。
但是,文中提到自下而上的方法,在最开始获取区域先验信息的时候,目前包括:边缘检测、显著性检测、超像素等,都有各自的缺陷。

论文题目:Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation
详细解读:https://www.aminer.cn/research_report/62f26da17cb68b460fff4cd4icon-default.png?t=M666https://www.aminer.cn/research_report/62f26da17cb68b460fff4cd4
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值