sanguine__-CSDN博客

原创弱监督语义分割-对CAM的生成过程进行改进3

传统的图像级别标签或注释无法提供像素级别的对象位置信息，这导致网络在学习时可能过度关注显著的对象区域，而忽略了对象的边缘或细节部分。然后，我们从新 CAM 中抽样可靠的像素，并将它们的分割预测作为语义标签应用于训练相应的原始 CAM。相反，大规模图像的CAM具有较少的激活区域，包括较少的过度激活。我们还介绍了抑制噪声标签的方法，并进一步讨论了我们的框架的实现，包括损失函数，网络结构，以及其他一些改进，如缩放和多扩展覆盖模块。实线表示F中的CAM预测过程，虚线表示F '中擦除后的图像生成H '的过程。

2024-05-24 18:34:14 365

原创弱监督语义分割-对CAM的生成过程进行改进2

PCM（Pixel Correlation Module，像素相关性模块）和我们提出的PRCM（Pixel-Region Correlation Module，像素-区域相关性模块）共同作用，提升原始CAM（Class Activation Map，类激活图）的质量到精细化的CAM（Refined CAM，RCAM）。我们注意到，随着S的增加，mIoU遵循与超像素补丁相似的趋势。然而，对于小目标(图5最后一列)，可以看出CPN的前景种子是过度分割的，因为对于没有边界的小目标，确实很难挖掘出准确的种子。

2024-05-21 11:05:13 546

原创弱监督语义分割-对CAM的生成过程进行改进1

论文：Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation （CVPR,2020）

2024-05-10 16:28:26 1017 1

原创 Anti-Adversarially Manipulated Attributions for Weakly and Semi-SupervisedSemantic Segmentation

CVPR 2021

2024-04-23 20:42:02 699

原创 Weakly supervised learning of instance segmentation with inter-pixelrelations（CVPR2019）

本文提出了一种以图像级类标签作为监督的实例分割学习方法。我们的方法生成训练图像的伪实例分割标签，用于训练完全监督模型。为了生成伪标签，我们首先从图像分类模型的注意图中识别对象类的自信种子区域，并传播它们以发现具有精确边界的整个实例区域。为此，我们提出了IRNet，它可以估计单个实例的粗略区域并检测不同对象类之间的边界。因此，它可以为种子分配实例标签，并在边界内传播它们，以便可以准确地估计实例的整个区域。此外，IRNet是用注意图上的像素间关系进行训练的，因此不需要额外的监督。

2024-03-30 12:02:53 699 1

原创 Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation

提取类激活映射(CAM)可以说是为弱监督语义分割(WSSS)生成伪掩码的最标准步骤。然而，我们发现伪掩码不理想的关键是在CAM中广泛使用的二进制交叉熵损失(BCE)。具体来说，由于BCE的池化方式是对类别求和，CAM中的每个像素可能对同一接受域中共同出现的多个类做出响应。因此，给定一个类，其热CAM像素可能会错误地侵犯属于其他类的区域，或者非热CAM像素实际上可能是该类的一部分。为此，我们介绍了一种简单有效方法:通过使用softmax交叉熵损失(SCE)(称为ReCAM)来重新激活具有BCE的聚合CAM。

2024-03-19 23:12:07 897 1

原创 End-to-End Weakly-Supervised SemanticSegmentation with Transformers

CVPR2022

2024-03-03 19:16:12 1055 1

原创 Image Segmentation Using Deep Learning:A Survey （2019年之前）

是指在图像分割任务中，将图像中的像素分配到预先定义的一组语义类别中的过程。这意味着每个像素被标记为属于某个特定的类别，如人、车辆、树木等，这些类别是在训练阶段提前定义好的。在预定义的语义类别分割中，模型的目标是根据这些固定的类别对图像进行分割，使得每个像素都被赋予一个特定的语义标签。相比之下，基于自然语言表达的语义分割则允许根据自然语言描述来指导图像分割过程，从而实现更具有灵活性和精细度的目标分割。这种方法可以根据自然语言描述中的具体要求，仅将图像中符合描述的目标进行分割，而不受预定义类别的限制。

2024-02-29 22:11:57 999

原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows（ICCV2021）

本文提出了一种新的视觉Transform，称为Swin Transform，它可以作为计算机视觉的通用骨干。将Transformer从语言应用到视觉的挑战来自于这两个领域之间的差异，例如视觉实体规模的巨大差异以及与文本中的单词相比，图像中像素的高分辨率。为了解决这些差异，我们提出了一个分层的Transformer，它的表示是用移位窗口计算的。移位窗口方案将自注意计算限制在不重叠的局部窗口，同时允许跨窗口连接，从而提高了效率。这种层次结构具有在各种尺度上建模的灵活性，并且相对于图像大小具有线性计算复杂度。

2024-02-20 19:44:29 1088 1

原创 Masked-attention Mask Transformer for Universal Image Segmentation（CVPR2022）

图像分割对具有不同语义的像素进行分组，例如，类别或实例隶属关系。每种语义选择都定义了一个任务。虽然每个任务只是语义不同，但目前的研究重点是为每个任务设计专门的体系结构。我们提出了maskedatattention Mask Transformer (Mask2Former)，这是一种能够处理任何图像分割任务(全景、实例或语义)的新架构。它的关键组成部分包括屏蔽注意，它通过在预测的屏蔽区域内约束交叉注意来提取局部特征。除了将研究工作量减少至少三倍之外，它在四个流行数据集上的性能明显优于最佳的专业架构。

2024-02-07 18:02:26 974 1

原创 MaskFormer：Per-Pixel Classification is Not All You Need for Semantic Segmentation （NeurIPS 2021）

现代方法通常将语义分割制定为逐像素分类任务，而实例级分割则使用替代掩码分类来处理。我们的关键见解是:掩码分类足够通用，可以使用完全相同的模型、损失和训练过程，以统一的方式解决语义级和实例级分割任务。根据这一观察，我们提出了MaskFormer，这是一个简单的掩码分类模型，它预测一组二进制掩码，每个掩码都与单个全局类标签预测相关联。总体而言，本文提出的基于掩模分类的方法简化了语义和全视分割任务的有效方法，并显示出良好的经验结果。特别是，我们观察到当类的数量很大时，MaskFormer优于每像素分类基线。

2024-02-04 23:42:32 994 1

原创 DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting（CVPR2022 ）

最近的进展表明，使用对比图像-文本对的大规模预训练可以从自然语言监督中学习高质量的视觉表示。得益于更广泛的监督来源，这种新范式表现出令人印象深刻的下游分类任务和数据集的可转移性。然而，将从图像-文本对中学到的知识转移到更复杂的密集预测任务的问题却很少被研究。在这项工作中，我们通过隐式和显式地利用来自CLIP的预训练知识，提出了一个新的密集预测框架。具体来说，我们将CLIP中的原始图像-文本匹配问题转换为像素-文本匹配问题，并使用像素-文本得分映射来指导密集预测模型的学习。

2024-01-31 16:25:53 918

原创论文解读-Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

将“DeepLabv3特征图”定义为由DeepLabv3计算得出的最后一个特征图，即包含ASPP特征和图像级特征的特征图。此外，作者还定义了“[k × k;f]”表示卷积操作，其中k × k表示卷积核的大小，f表示滤波器的数量。当使用输出步幅为16时，基于ResNet-101的DeepLabv3 [23]在训练和评估过程中通过双线性上采样将逻辑回归结果上采样16倍。

2024-01-27 13:13:57 930 1

原创论文解读-Hybrid Task Cascade for Instance Segmentation

Cascade是一个经典但功能强大的架构，可以提高各种任务的性能。然而，如何在实例分割中引入级联仍然是一个悬而未决的问题。级联R-CNN和掩模R-CNN的简单组合只能带来有限的增益。在探索一种更有效的方法时，我们发现一个成功的实例分割级联的关键是充分利用检测和分割之间的相互关系。在这项工作中，我们提出了一个新的框架，混合任务级联(HTC)，它在两个重要方面有所不同:(1)它不是单独对这两个任务进行级联细化，而是将它们交织在一起进行联合多阶段处理;

2024-01-23 23:17:28 1000 1

原创论文详解-Fully Convolutional Networks for Semantic Segmentation

全卷积网络是一类丰富的模型，可以解决许多像素级的任务。用于语义分割的fns通过传递预训练的分类器权重、融合不同的层表示以及在整个图像上进行端到端学习来显著提高准确率。端到端，像素到像素的操作同时简化并加速了学习和推理。本文的所有代码在Caffe中都是开源的，并且所有模型都可以在Caffe模型动物园中免费获得。进一步的工作已经证明了全卷积网络在各种图像到图像任务中的通用性。%5Csum。

2024-01-18 22:59:32 455 1

原创黑马JAVA入门学习笔记7

常用API

2024-01-15 11:14:44 329 1

原创黑马JAVA入门学习笔记6

面向对象基础

2024-01-07 13:40:14 933 1

原创黑马JAVA入门学习笔记5

案例练习

2023-12-22 13:22:29 384

原创黑马JAVA入门学习笔记4

JAVA方法介绍

2023-12-16 20:26:56 821

原创黑马JAVA入门学习笔记3

简单说 int a=20;int[] arr=new int[3] 执行原理a是变量，直接放在栈中，a变量中存储的数据就是20这个值。new int[3] 是创建一个数组对象，会在堆内存中开辟区域存储3个整数。arr是变量，在栈中，arr中存储的是数组对象在堆内存的地址值。

2023-12-13 16:31:38 333 1

原创黑马JAVA入门学习笔记2

【代码】黑马JAVA入门学习笔记2。

2023-12-12 20:04:46 357 1

原创 JAVA入门学习笔记1

a+=b自带强制类型转换。

2023-12-09 21:27:47 280 2

sanguine__的博客