#今日论文推荐#无需标注，用Transformer来挖掘先验，MaskDistill：无监督语义分割新网络

最新推荐文章于 2024-08-06 15:10:31 发布

wwwsxn

最新推荐文章于 2024-08-06 15:10:31 发布

阅读量171

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/62f26da17cb68b460fff4cd4

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐#无需标注，用Transformer来挖掘先验，MaskDistill：无监督语义分割新网络

无监督语义分割任务的意义闭着眼睛想肯定是那几句话嘛：全监督语义分割标签费时费力，弱监督语义分割对标签依赖性减弱但仍然需要标签，这不，无监督语义分割的意义就来了。
无监督语义分割任务的目的是将可能属于同一类别的像素分为一组，值得注意的是，并不要求模型知道每个组真实对应哪一个语义类别。比如说一张图片里面有猫、狗、背景三个类别，模型将图片里的猫、狗、背景分为了三组，但是模型自己是不知道这三组像素与真实语义类别的对应关系的，只不过能将这些类别的像素区分开。
想要将分组和真实的类别对应起来，我看，文中的实验部分提到了两种设置：
Linear classifier：在无监督分割模型训练结束之后，将分割模型的参数Frozen，然后在分割模型产生的特征上额外加一层1*1卷积（即分类器），从而对应到语义分类。（所以对应想将分组对应到语义类别还是需要类别标签？所以我费这老大劲进行无监督语义分割干嘛？直接image-level的弱监督语义分割不香吗？VOC数据集的mIoU都能到70几了，这篇文章才62.）
Clustering：通过 Hungarianmatching [Kuhn, H.W.: The hungarian method for the assignment problem. Naval research logistics quarterly 2(1-2), 83–97 (1955) 6, 10] 将分组预测与GT进行比较，但是效果较差。
按本文所述，无监督语义分割在这之前分为两个主流的方法：
End to End类型：这一类型的方法，通过对图像进行数据增强来施加聚类一致性而实现聚类的功能（其实就是对比学习的思路？）。作者不建议这种方法，应该它们会让模型聚焦于图像的颜色、纹理等低级特征。我倒觉得这一类的方法挺优美而简洁的。
自下而上多阶段类型：首先，利用边缘检测或显著性估计来获取可能属于同一类别的的区域的先验信息。然后使用这些区域来学习语义embedding。最后，通过 K-means 对embedding进行聚类得到分割结果。作者更推荐这种方法。
但是，文中提到自下而上的方法，在最开始获取区域先验信息的时候，目前包括：边缘检测、显著性检测、超像素等，都有各自的缺陷。

论文题目：Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation
详细解读：https://www.aminer.cn/research_report/62f26da17cb68b460fff4cd4https://www.aminer.cn/research_report/62f26da17cb68b460fff4cd4
AMiner链接：https://www.aminer.cn/?f=cs

wwwsxn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐#无需标注，用Transformer来挖掘先验，MaskDistill：无监督语义分割新网络

在之前读的一篇有意思的文章（ICCV2021-DINO：无监督预训练的ViT居然能够包含关于图像语义分割的明确信息？）中，我们知道了无监督预训练的Transformer能够具有一定的将图像中属于同一类别的区域分割出来的能力，当时就在想这其实可以作为先验信息来指导无监督语义分割模型的训练。...
复制链接

扫一扫

专栏目录