自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(135)
  • 收藏
  • 关注

原创 Squeeze-and-Attention Networks for Semantic Segmentation

在本文中,我们从像素级预测和像素分组这两个独立的维度重新思考了语义分割问题。我们设计了一个SA模块来解决像素分组的隐含子任务。SA模块增强了像素级的密集预测,并考虑了被大多数人忽视的像素组注意力。更重要的是,我们提出了在两个具有挑战性的基准测试上取得有希望的分割性能的SANet。我们希望简单而有效的SA模块以及构建在SA模块之上的SANet能够促进其他研究团队在分割领域的研究。

2023-10-19 21:20:18 346

原创 PSANet: 场景解析的逐点空间注意力网络_PSANet:Point-wise Spatial Attention Network for Scene Parsing

我们在图2中展示了PSA模块的框架。PSA模块以空间特征图X作为输入。我们将X的空间大小表示为H×W。通过两个分支生成每个特征图位置的像素级全局注意力图,通过几个卷积层。根据公式(8),我们根据注意力图聚合输入特征图,生成与长程上下文信息结合的新特征表示,即来自“collect”分支的Zc和来自“distribute”分支的Zd。我们将新的表示Zc和Zd连接起来,并应用一个带有批量归一化和激活层的卷积层进行降维和特征融合。然后,我们将新的全局上下文特征与局部表示特征X连接起来。

2023-10-19 14:40:58 1038

原创 HyperSeg: 基于块的超网络实时语义分割——HyperSeg:Patch-wise Hypernetwork for Real-time Semantic Segmentation

我们提出将自编码器与超网络结合起来,用于语义分割任务。在我们的方案中,超网络由三个网络组成:语义分割编码器的骨干网络b,一个内部U-Net形式的上下文头h和多个权重映射头wi。解码器是一个多块解码器,其中每个块di实现局部连接层。结果是一种新型的U-Net,能够动态地、局部地适应输入,因此有潜力更好地定制分割过程以适应输入图像。正如我们的实验所显示的,我们的方法在这个非常具有竞争力的领域中,通过多个基准测试,优于SotA方法。

2023-10-11 11:31:19 579

原创 期望最大化注意力网络用于语义分割——Expectation-Maximization Attention Networks for Semantic Segmentation

在本文中,我们提出了一种新型的注意力机制,即期望最大化注意力(EMA),它通过迭代执行EM算法计算出更紧凑的基础集。EMA的重建输出是低秩的,并且对输入的变化具有鲁棒性。我们将所提出的方法形式化为轻量级模块,可以轻松插入到现有的CNN中,代价很小。在许多基准数据集上的广泛实验表明了所提出的EMAU的有效性和效率。

2023-10-11 11:03:39 533

原创 PointRend: 将图像分割视为渲染——PointRend:Image Segmentation as Rendering

我们提出了一种新的方法,用于高效、高质量的对象和场景图像分割。通过将经典的计算机图形学方法与像素标记任务中面临的过采样和欠采样挑战进行类比,我们开发了一种将图像分割视为渲染问题的独特视角。基于这个视角,我们提出了PointRend(基于点的渲染)神经网络模块:一个在自适应选择的位置上执行基于点的分割预测的模块,该位置是基于迭代细分算法选择的。PointRend可以灵活地应用于实例分割和语义分割任务,通过构建在现有的最先进模型之上。虽然许多具体实现都是可能的,但我们表明,一个简单的设计已经可以实现出色的结果。

2023-10-10 22:08:52 457

原创 BiSeNet:用于实时语义分割的双边分割网络——BiSeNet:Bilateral Segmentation Network for Real-time Semantic Segmentation

语义分割需要丰富的空间信息和较大的感受野。然而,现代的方法通常为了实现实时推断速度而牺牲空间分辨率,导致性能下降。本文提出了一种新的双边分割网络(BiSeNet)来解决这个问题。我们首先设计了一个具有小步长的空间路径来保留空间信息并生成高分辨率特征。同时,采用快速下采样策略的上下文路径用于获取足够的感受野。在两个路径之上,我们引入了一个新的特征融合模块来有效地组合特征。所提出的架构在Cityscapes、CamVid和COCO-Stuff数据集上在速度和分割性能之间取得了适当的平衡。

2023-10-10 21:44:37 1777

原创 HRNet-深度高分辨率表示学习在人体姿势估计中的应用——Deep High-Resolution Representation Learning for Human Pose Estimation

在本文中,我们对人体姿态估计问题感兴趣,重点是学习可靠的高分辨率表示。大多数现有方法通过高低分辨率网络生成的低分辨率表示恢复高分辨率表示。相反,我们提出的网络在整个过程中保持高分辨率表示。我们从一个高分辨率子网络作为第一阶段开始,逐渐添加高低分辨率子网络形成更多阶段,并将多分辨率子网络并行连接起来。我们进行重复的多尺度融合,使每个高低分辨率表示重复地从其他并行表示中接收信息,从而得到丰富的高分辨率表示。因此,预测的关键点热图可能更准确且空间上更精确。

2023-10-04 17:50:14 259

原创 注意力机制是否比矩阵分解更好?——IS ATTENTION BETTER THAN MATRIX DECOMPOSITION?

本文研究了在网络中建模长程依赖关系。我们将学习全局上下文的过程形式化为一个低秩完成问题。受到低秩形式化的启发,我们基于广为研究的矩阵分解模型开发了Hamburger模块。通过特定的矩阵分解目标函数,其优化算法创建的计算图自然地定义了Hamburger的核心架构。Hamburger通过去噪和完成其输入来学习可解释的全局上下文,并改善谱的集中度。令人惊讶的是,当谨慎处理反向梯度时,即使是20年前提出的简单矩阵分解在具有挑战性的视觉任务(如语义分割和图像生成)中也能与自注意力一样强大,而且轻量、快速和内存高效。

2023-10-04 17:22:50 474

原创 InternImage: 使用可变形卷积探索大规模视觉基础模型(Exploring Large-Scale Vision Foundation Models with Deformable Conv)

相较于近年来大规模视觉Transformer(ViT)取得的巨大进展,基于卷积神经网络(CNN)的大规模模型仍处于早期阶段。本文提出了一种新的基于CNN的大规模基础模型,称为InternImage,它可以像ViTs那样从增加参数和训练数据中获益。与近期专注于大型密集卷积核的CNN不同,InternImage将可变形卷积作为核心运算符,因此我们的模型不仅具有下游任务(如检测和分割)所需的大有效感受野,而且具有由输入和任务信息条件化的自适应空间聚合。

2023-09-29 17:19:29 1831

原创 DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION——用于端到端物体检测的可变形注意力机制

原文链接:https://arxiv.org/pdf/2010.04159.pdf0.摘要1.引言2.相关工作3.回顾Transformers和DETR4.方法4.1.用于端到端的可变性注意力机制4.2.关于Deformable DETR模型的补充改进和变体5.实验5.1.与DETR的比较5.2.关于可变形注意力的消融研究5.3.与当前主流方法的比较6.结论7.参考文献

2023-09-26 11:26:02 236

原创 Xception: 使用深度可分离卷积的深度学习——Xception:Deep Learning with Depthwise Separable Convolutions

我们将卷积神经网络中的Inception模块解释为常规卷积和深度可分离卷积操作之间的中间步骤。在这个视角下,深度可分离卷积可以被理解为具有最大数量塔的Inception模块。这个观察引导我们提出了一个新颖的深度卷积神经网络架构,灵感来自Inception,其中Inception模块被深度可分离卷积所替代。

2023-09-26 10:19:02 350

原创 尺度空间和使用各向异性扩散进行边缘检测——Scale-Space and Edge Detection Using Anisotropic Diffusion

我们介绍了一种工具,各向异性扩散,我们相信它在早期视觉的许多任务中将证明其有用性。基于扩散的算法涉及整个图像格点上的简单、局部、相同的计算。在像连接机这样的大规模并行架构上实现几乎是微不足道的。使用混合模拟-数字网络的实现也似乎是可行的。我们已经证明,最简单的各向异性扩散版本可以成功地应用于多尺度图像分割。作为预处理步骤,它使得细化和连接边缘变得不必要,保留了边缘交叉点,并且不需要在不同尺度上对图像进行复杂的比较,因为形状和位置在每个尺度上都得到保留。

2023-09-07 18:16:34 404

原创 使用CNN和经过判别式训练的域变换进行任务特定边缘检测的语义图像分割——Semantic Image Segmentation with Task-Specific Edge Detection Us

我们提出的模型由三个组件组成,如图2所示。它们被联合训练,以优化输出的语义分割质量。第一个组件是基于公开可用的DeepLab模型[5]的粗糙语义分割评分预测。DeepLab修改了VGG-16网络[40]以成为FCN [31]。该模型从VGG-16 ImageNet [36]预训练模型初始化。我们采用了[5]的DeepLab LargeFOV变体,它在滤波器中引入零以扩大其视野,我们简称为DeepLab。我们添加了第二个组件,称为EdgeNet。EdgeNet通过利用DeepLab的中间层特征来预测边缘。

2023-09-07 16:31:01 219

原创 无卷积参考图像分割——ReSTR: Convolution-free Referring Image Segmentation Using Transformers

参考图像分割是一项高级的语义分割任务,其中目标不是预定义的类别,而是通过自然语言进行描述。现有的大多数方法依赖于卷积神经网络,但是卷积神经网络在捕捉语言表达中实体之间的长距离依赖关系方面存在困难,并且对于建模两种不同模态之间的相互作用不够灵活。为了解决这些问题,我们提出了一种使用Transformer进行参考图像分割的第一个无卷积模型,名为ReSTR。由于ReSTR通过Transformer编码器提取了两种模态的特征,因此可以捕捉到每个模态内部实体之间的长距离依赖关系。此外,ReSTR通过自注意力编码器融合

2023-08-24 16:53:28 194

原创 保留网络:大型语言模型的Transformer继任者

在这项工作中,我们提出了Retentive Network (RETNET)作为大型语言模型的基础架构,同时实现了训练并行性、低成本推理和良好的性能。我们从理论上推导了循环和注意力之间的联系。然后,我们提出了序列建模的保留机制,支持三种计算范式,即并行、递归和分块递归。具体而言,并行表示允许进行训练并行化。递归表示实现了低成本的O(1)推理,提高了解码吞吐量、延迟和GPU内存,而不会牺牲性能。分块递归表示以线性复杂度实现了高效的长序列建模,每个块都是并行编码的同时递归总结块。

2023-08-01 20:00:34 1324

原创 SegNeXt:重新思考用于语义分割的卷积注意力

在这篇论文中,我们分析了之前成功的分割模型,并找到了它们所拥有的良好特性。基于这些发现,我们提出了定制的卷积注意力模块MSCA和CNN风格的网络SegNeXt。实验结果表明,SegNeXt在很大程度上超过了当前最先进的基于transformer的方法。最近,基于transformer的模型在各种分割排行榜上占据主导地位。然而,本文表明,当使用适当的设计时,基于CNN的方法仍然可以比基于transformer的方法表现更好。我们希望这篇论文能够鼓励研究人员进一步探索CNN的潜力。

2023-08-01 11:06:30 416

原创 二十一章:PUZZLE-CAM:通过匹配局部和全局特征来改进定位

弱监督语义分割(WSSS)被引入来缩小从像素级监督到图像级监督的语义分割性能差距。大多数先进的方法是基于类激活图(CAM)来生成伪标签以训练分割网络。WSSS的主要局限性在于从使用图像分类器的CAM生成伪标签的过程主要集中在对象的最具区分性的部分。为了解决这个问题,我们提出了Puzzle-CAM,它通过最小化分割网络中独立补丁和整个图像特征之间的差异来发现对象中最一体化的区域。我们的方法包括一个拼图模块和两个正则化项。Puzzle-CAM可以利用图像级监督激活对象的整个区域,而不需要额外的参数。

2023-07-31 14:07:07 257

原创 二十五章:用于弱监督语义分割的激活调节和重新校准方案

图像级弱监督语义分割(WSSS)是一项基础而具有挑战性的计算机视觉任务,有助于场景理解和自动驾驶。大多数现有方法利用基于分类的类激活图(CAMs)作为初始伪标签,但这些方法往往关注区分性的图像区域,缺乏针对分割任务的定制特征。为了缓解这个问题,我们提出了一种新颖的激活调节和重新校准(AMR)方案,利用聚光灯分支和补偿分支获得加权的CAMs,提供重新校准的监督和任务特定的概念。

2023-07-30 10:33:35 316

原创 二十四章:Reducing Information Bottleneck for WeaklySupervised Semantic Segmentation——减小弱监督语义分割的信息瓶颈

弱监督语义分割通过类别标签生成像素级定位,然而,使用这些标签训练的分类器往往只关注目标对象的小的可区分区域。我们使用信息瓶颈原理解释了这一现象:深度神经网络的最后一层通过sigmoid或softmax激活函数引起了信息瓶颈,结果只有任务相关信息的子集传递到输出层。我们首先通过一个模拟的玩具实验支持了这一论点,然后提出了一种通过去除最后一个激活函数来减小信息瓶颈的方法。此外,我们引入了一种新的池化方法,进一步鼓励从非判别区域传递信息到分类器。我们的实验评估表明,这个简单的修改显著提高了在PASCAL VOC

2023-07-29 22:16:34 159

原创 二十三章:抗对抗性操纵的弱监督和半监督语义分割的属性解释

弱监督语义分割从分类器中生成像素级定位,但往往会限制其关注目标对象的一个小的区域。AdvCAM是一种图像的属性图,通过增加分类分数来进行操作。这种操作以反对抗的方式实现,沿着像素梯度的相反方向扰动图像。它迫使最初被认为不具有区分度的区域参与后续的分类,并产生逐步识别目标对象更多区域的属性图。此外,我们引入了一种新的正则化过程,抑制了与目标对象无关的区域的错误归因,并限制了已经具有高分数的区域的归因。

2023-07-29 21:59:14 354

原创 二十二章:通过响应缩放进行不确定性估计,以减轻弱监督语义分割中伪掩码噪声的影响

弱监督语义分割(WSSS)在不需要密集注释的情况下对对象进行分割。然而,生成的伪掩码存在明显的噪声像素,这导致在这些伪掩码上训练的分割模型表现不佳。但是,很少有研究注意到或解决这个问题,即使在改进了伪掩码后这些噪声像素仍然是不可避免的。因此,我们试图改进WSSS的噪声抑制方面。我们观察到许多噪声像素具有很高的置信度,特别是当响应范围过宽或过窄时,表现出不确定的状态。因此,在本文中,我们通过多次缩放预测图来模拟响应的噪声变化,以估计不确定性。然后,利用这种不确定性来加权分割损失,以减轻噪声监督信号。

2023-07-29 20:36:43 478

原创 二十章:基于弱监督语义分割的亲和注意力图神经网络

弱监督语义分割因其较低的人工标注成本而受到广泛关注。本文旨在解决基于边界框标注的语义分割问题,即使用边界框注释作为监督来训练准确的语义分割模型。为此,我们提出了亲和力注意力图神经网络(A2GNN)。按照先前的做法,我们首先生成伪语义感知的种子,然后基于我们新提出的亲和力卷积神经网络(CNN)将其形成语义图。然后,构建的图被输入到我们的A2GNN中,其中一个亲和力注意力层被设计用来从软图边缘获取短距离和长距离信息,以准确地将语义标签从可信的种子传播到未标记的像素。

2023-07-29 16:13:42 777

原创 十九章:利用跨图像语义挖掘进行弱监督语义分割

首先,在三种不同的WSSS设置下进行实验:(1) 最标准的范式[22, 23, 55, 69],只允许使用来自PASCAL VOC 2012 [10]的图像级别监督(见第4.1节)。(2) 遵循[35, 48]的方法,可以使用额外的单标签图像,但会带来域差异的挑战(见第4.2节)。(3) 网络监督的语义分割范式[24, 32, 54],可以访问额外的网络数据(见第4.3节)。然后,在第4.4节中,我们展示了我们方法在LID20的WSSS任务中取得的成果。

2023-07-29 15:53:32 364

原创 十八章:用于弱监督语义分割的自监督等变注意力机制

图像级弱监督语义分割是一个具有挑战性的问题,近年来得到了深入研究。大多数先进的解决方案利用类激活图(CAM)。然而,由于全监督和弱监督之间存在差距,CAM几乎无法用作对象掩码。在本文中,我们提出了一种自监督的等变注意机制(SEAM),以发现额外的监督信息并缩小差距。我们的方法基于这样一个观察结果:等变性是完全监督语义分割中的一个隐含约束,其像素级标签在数据增强期间与输入图像进行相同的空间变换。然而,这个约束在通过图像级监督训练的CAM上丢失了。

2023-07-29 11:23:18 420 1

原创 十七章:FickleNet:使用随机推理进行弱监督和半监督语义图像分割

弱监督语义图像分割的主要障碍在于从粗糙的图像级注释中获取像素级信息的难度。大多数基于图像级注释的方法使用从分类器获得的定位地图,但这些地图仅关注对象的小区别部分,不捕捉精确的边界。FickleNet探索由通用深度神经网络创建的特征图上的各种位置的组合。它随机选择隐藏单元,然后使用它们来获取图像分类的激活分数。FickleNet隐含地学习了特征图中每个位置的一致性,从而产生了一个定位地图,可识别对象的区别和其他部分。通过选择随机隐藏单元对,从单个网络中获得了集合效应,这意味着从单个图像生成了各种定位地图。

2023-07-28 22:13:58 316

原创 十六章:可靠性确实重要:一种端到端的弱监督语义分割方法

在本文中,我们提出了RRM,一种用于图像级别弱监督语义分割的端到端网络。我们重新审视了现有方法采用的两步方法的缺点。我们通过挖掘可靠但微小的区域,提出了一种一步方法,并直接将它们用作分割模型训练的标签。在有限的像素监督下,我们设计了一种新的损失函数,称为密集能量损失,它利用浅层特征(RGB颜色和空间信息)与像素级交叉熵损失相结合,优化训练过程。基于我们的一步RRM,我们扩展了一个两步方法。我们的一步和两步方法都实现了最先进的性能。更重要的是,我们的RRM提供了与传统的两步解决方案不同的视角。

2023-07-28 20:16:31 320

原创 十五章:使用类别峰值响应的弱监督实例分割

在本文中,我们提出了一种简单而有效的技术,可以使分类网络能够进行实例掩码提取。基于类别峰值响应,峰值刺激对于增强目标定位非常有效,而峰值反向传播则提取了每个实例的细节丰富的视觉线索。我们展示了点级定位以及弱监督语义分割的最佳结果,并且据我们所知,首次报告了图像级监督的实例分割结果。其基本事实是实例感知线索自然地被卷积滤波器学习,并编码在分层响应图中。发现这些线索为弱监督实例级问题提供了新的见解。

2023-07-28 17:57:33 721

原创 第十四章:通过迭代挖掘共同物体特征的弱监督语义分割

在图像标签监督下进行弱监督语义分割是一项具有挑战性的任务,因为它直接将高层语义与低层外观相关联。为了弥合这一差距,本文提出了一种迭代的自底向上和自顶向下的框架,交替扩展对象区域和优化分割网络。我们从分类网络产生的初始定位开始。虽然分类网络只对较小和粗糙的有区别的对象区域敏感,但我们认为这些区域包含了关于对象的重要共同特征。因此,在自底向上的步骤中,我们从初始定位中挖掘共同的物体特征,并利用这些特征扩展对象区域。为了补充非有区别的区域,我们在贝叶斯框架下考虑显著性图来细化对象区域。

2023-07-28 11:27:55 182

原创 十三章:使用图像级监督学习像素级语义关联性的弱监督语义分割

分割标签的不足是野外语义分割的主要障碍之一。为了缓解这个问题,我们提出了一个新颖的框架,根据图像级别的类别标签生成图像的分割标签。在这种弱监督的设置下,已知训练模型更倾向于分割局部有区别的部分,而不是整个物体区域。我们的解决方案是将这样的局部响应传播到属于同一语义实体的附近区域。为此,我们提出了一个称为AffinityNet的深度神经网络(DNN),它预测相邻图像坐标对之间的语义相似度。语义传播通过使用AffinityNet预测的相似度进行随机游走来实现。

2023-07-27 21:55:50 502

原创 第十二章:Tell Me Where to Look:Guided Attention Inference Network ——告诉我看哪里:引导注意力推断网络

只使用粗略标签的弱监督学习可以通过反向传播梯度来获得深度神经网络的视觉解释,如注意力地图。这些注意力地图可以作为对象定位和语义分割等任务的先验知识。在一个常见的框架中,我们解决了以前方法中建模这些注意力地图的三个缺点:(1)首次将注意力地图作为端到端训练的明确且自然的组成部分,(2)直接在这些地图上提供自我指导,通过探索网络自身的监督来改善它们,(3)在使用弱监督和额外监督之间无缝地建立桥梁(如果可用)。尽管方法简单,但在语义分割任务上的实验证明了我们方法的有效性。

2023-07-27 20:16:29 119

原创 十一章:Weakly-Supervised Semantic Segmentation Network —— 基于深度种子区域增长的弱监督语义分割网络

本文研究了只使用图像级别标签作为监督来学习图像语义分割网络的问题,这是重要的,因为它可以显著减少人工标注的工作量。最近在这个问题上的最新方法首先使用深度分类网络推断出每个对象类的稀疏和有区别的区域,然后使用有区别的区域作为监督来训练语义分割网络。受传统图像分割方法中种子区域生长的启发,我们提出了一种从有区别的区域开始训练语义分割网络,并逐渐增加像素级别监督的方法,通过种子区域生长引入。种子区域生长模块被集成在深度分割网络中,并且可以从深度特征中受益。与传统的固定/静态标签的深度网络不同,提出的弱监督网络使用

2023-07-27 17:01:34 347

原创 第十章:重新审视扩张卷积:一种用于弱监督和半监督语义分割的简单方法

我们重新审视了膨胀卷积,并提出利用不同膨胀率的多个卷积块生成密集的目标定位图。我们的方法易于实现,并且生成的密集定位图可以用于在弱监督或半监督方式下学习语义分割网络。我们在这两个具有挑战性的任务上取得了新的最佳mIoU得分。这项工作为仅使用分类网络来挖掘密集目标区域铺平了一条简单而全新的道路。如何通过将判别区域从一端扩展到另一端来解决失败案例,并在大规模数据集(如MS COCO [18]和ImageNet [4])上进行实验,将成为我们未来的工作。

2023-07-27 16:45:01 472

原创 第九章:Adversarial Complementary Learning for Weakly Supervised Object Localization ——对于弱监督对象定位的对抗互补学习

在这项工作中,我们提出了对抗互补学习(ACoL),以实现弱监督下语义感兴趣的对象的自动定位。我们首先在数学上证明了可以通过直接选择最后一个卷积层的类特定特征图来获得类定位图,这为识别对象区域提供了一种简单的方法。然后,我们提出了一个简单的网络架构,包括两个并行分类器用于对象定位。具体而言,我们利用一个分类分支在前向传递过程中动态定位一些具有区分性的对象区域。尽管它通常对目标对象的稀疏部分有响应,但这个分类器可以通过从特征图中擦除其发现的区域来驱使对应的分类器发现新的和互补的对象区域。通过这种对抗性学习,两个

2023-07-27 15:35:07 302

原创 第八章:将自下而上、自上而下和平滑性线索结合起来进行弱监督图像分割

本文解决了弱监督语义图像分割的问题。我们的目标是在仅给出与训练图像关联的图像级别对象标签的情况下,为新图像中的每个像素标记类别。我们的问题陈述与常见的语义分割有所不同,常规的语义分割假设在训练中可用像素级注释。我们提出了一种新颖的深度架构,它融合了三个不同的计算过程,用于语义分割,即:(i)在CNN中进行自下而上的神经激活计算,用于对对象类别进行图像级别预测;(ii)在给定预测对象的情况下,估计CNN激活的条件概率,从而产生每个对象类别的概率注意力图;

2023-07-27 10:53:23 151

原创 第七章:WILDCAT: 弱监督学习的深度卷积神经网络用于图像分类、点位定位和分割

我们提出了一种新的弱监督学习方法WILDCAT,专门用于在训练过程中仅使用图像级标签来学习具有区分性的局部视觉特征。广泛的实验证明了WILDCAT在三个主要的视觉识别任务上的有效性:图像分类,在六个具有挑战性的数据集上取得了出色的性能;以及弱监督定位和分割,使用单一通用的训练方案适用于所有任务。未来的工作包括将WILDCAT应用于语义应用中,其中局部特征至关重要,例如视觉问答[64,4]或视觉定位[17]。

2023-07-26 20:37:56 354

原创 第六章:Learning to Detect Salient Objects with Image-level Supervision——学习使用图像级监督来检测显著对象

本文提出了一种基于图像级弱监督的显著性检测的两阶段训练方法。在第一阶段,提出了两种新颖的网络结构,即GSP和FIN,通过学习预测图像级别的类别标签来估计显著性图。在第二阶段,使用估计的显著性图作为真实标签进一步微调FIN。还开发了一个迭代的CRF来细化估计的真实标签,并进一步提高性能。在基准数据集上进行了广泛的评估,验证了我们方法的有效性。

2023-07-26 19:17:53 187

原创 第五章:通过对抗擦除的目标区域挖掘:一种简单的语义分割方法

我们研究了一种逐步挖掘具有鉴别性的物体区域的原则方法,使用分类网络来解决弱监督语义分割问题。分类网络只对感兴趣对象中的小而稀疏的鉴别性区域有响应,这与分割任务的要求相背离,分割任务需要定位密集、内部和完整的区域以进行像素级推理。为了缓解这种差距,我们提出了一种新的对抗擦除方法,逐步定位和扩展物体区域。从一个小的物体区域开始,我们的方法通过以对抗性的方式擦除当前挖掘的区域,驱动分类网络依次发现新的和补充的物体区域。这些定位的区域最终构成了用于学习语义分割的密集而完整的物体区域。为了进一步提升通过对抗擦除发现的

2023-07-26 16:12:24 179

原创 四章:Constrained-CNN losses for weakly supervised segmentation——弱监督分割的约束CNN损失函数

本文提出了一种新颖的损失函数用于弱监督图像分割,尽管其简单性,但在这个任务中表现出比拉格朗日优化显著更好的性能。我们通过仅标注少量像素,在三个不同任务中实现了接近全监督的结果,并且计算开销几乎可以忽略不计。虽然我们的实验主要集中在基本的线性约束,如目标区域的尺寸和图像标签上,但我们的直接约束CNN损失函数可以很容易地扩展到其他非线性约束,例如不变形状矩(Klodt和Cremers,2011)或其他区域统计量(Lim等,2014)。因此,它有潜力在语义医学图像分割中弥合弱监督学习和全监督学习之间的差距。

2023-07-26 15:23:25 493

原创 第三章:Seed,Expand and Constrain:——种子、扩展和约束:弱监督图像分割的三个原则

我们提出了一种新的损失函数,用于在仅有图像级标签的情况下训练深度分割网络。我们证明,在相同的实验条件下,我们的方法在性能上明显优于先前的最先进方法,并提供了详细的消融研究。我们还确定了一些潜在的方向,可以进一步改善弱监督分割性能。我们的实验表明,对目标大小的了解可以显著提高分割性能。SEC通过衰减参数很容易地整合了大小信息,但自动估计目标大小的方法将是可取的。改进性能的第二种方式是更强的分割先验,例如关于形状或材料的先验信息。

2023-07-26 14:03:38 223

原创 第二章:Learning Deep Features for Discriminative Localization ——学习用于判别定位的深度特征

在这项工作中,我们重新审视了在[13]中提出的全局平均池化层,并阐明了它如何明确地使卷积神经网络(CNN)具有出色的定位能力,尽管它是在图像级别标签上进行训练的。虽然这个技术之前被提出作为一种训练规范化的手段,但我们发现它实际上构建了一个通用的可定位的深度表示,揭示了CNN在图像上的隐式注意力。尽管全局平均池化看起来非常简单,但我们在ILSVRC 2014数据集上实现了37.1%的top-5错误率,而没有使用任何边界框标注进行训练。

2023-07-26 11:00:23 168

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除