Bai__Yang_-CSDN博客

原创 Emerging Properties in Self-Supervised Vision Transformers学习笔记

在本文中，我们质疑自监督学习是否为ViT提供了与卷积网络相比突出的新特性。除了将自监督方法适应于这种架构特别有效的事实之外，我们还进行了以下观察:首先，自监督ViT特征包含关于图像语义分割的明确信息，这在监督ViT和卷积网络中都没有清晰地出现。我们的研究还强调了momentum encoder[33]、multi-crop learning[10]以及使用small patches of ViTs的重要性。我们将我们的发现应用到一种简单的自我监督方法中，称为DINO。

2023-12-20 15:30:20 1461 1

原创 Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation学习笔记

本文研究弱开放词汇语义分割问题（WOVSS）。该问题学习使用图像-文本对（image-text pairs）来分割任意类别（arbitrary classes）的对象。现有的工作通过引入显式分组识别来增强普通视觉transformer。然而，这些方法在group tokens的使用方面存在粒度不一致的问题。我们认为，这种差异源于对每个group token缺乏详细的监督文从原型知识中探索了对group token的。为了弥补这种粒度差距，本文从原型知识中探索了对group token的显式监督。

2023-12-20 14:31:48 1027 1

原创 Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation学习笔记

开放词汇语义分割，需要在推理时分割出新的类别。最近研究探索了视觉语言预训练来处理，但在实际场景中受到低质量的文本类别名称的影响。例如，当遇到简短或不完整的名称产生歧义、未出现在预训练的词典中的新词以及用户难以描述的类别时，通常会出现例外情况。为了解决这些问题，这项工作提出了一个新的分解聚合框架，灵感来自于人类理解新概念的认知。具体来说，在分解阶段，将类名解耦为不同的属性描述，以丰富语义上下文。在聚合阶段，将不同的属性组合成一个完整的全局描述，形成一个区分目标对象和其他对象的判别分类器。

2023-12-20 13:39:04 2461 1