Rethinking the Route Towards Weakly Supervised Object Localization 论文笔记

前言通常来说,深度学习在一些计算机视觉任务上的应用,比如分类、定位和检测,需要大量精确标注的数据,而模型在这些数据集上进行预训练之后,并不能直接应用到其它的任务中。为了减少这种限制,人们开始利用弱监督方法来进行学习,弱监督的训练数据一般只有image-level标签,没有大型数据集中的location-level(bbox和关键点)和pixel-level(每个像素都有一个类标签,用于语义分割)...
摘要由CSDN通过智能技术生成

前言

通常来说,深度学习在一些计算机视觉任务上的应用,比如分类、定位和检测,需要大量精确标注的数据,而模型在这些数据集上进行预训练之后,并不能直接应用到其它的任务中。为了减少这种限制,人们开始利用弱监督方法来进行学习,弱监督的训练数据一般只有image-level标签,没有大型数据集中的location-level(bbox和关键点)和pixel-level(每个像素都有一个类标签,用于语义分割)标签,因此很容易获得。在弱监督任务中,弱监督目标定位(WSOL)是最实际的任务,因为它只需要在给定类标签的情况下对目标定位。在WSOD中,假设图像中只有一个目标。

但是,作者通过实验发现,WSOL中的定位部分应该是类不可知的,即与类标签无关。基于此,本文将WSOL分为两个独立的子任务:类不可知目标定位与目标分类,如下图所示,称为伪监督目标定位(Pseudo Supervised Object Localization,PSOL):
在这里插入图片描述
在先前的WSOL方法中,需要最终生成的特征图来产生bbox;而在PSOL方法中,首先通过DDT生成伪监督gt bbox,也就是不准确的bbox,然后在这些bbox上进行回归。PSOL去掉了WSOL中仅能有一个全连接层作为分类权重的限制,并且解决了定位与分类耦合导致的取舍问题。

本文的贡献如下:

  • 证明WSOD应该被分为两部分:类不可知目标定位与目标分类,提出PSOL以解决WSOL中存在的问题;
  • 虽然生成的bbox有偏差,但作者认为应该直接对它们进行优化,而不需要类标签;
  • 不需要fine-tuning,PSOL方法也能在不同的数据集上拥有良好的定位迁移能力。

WSOL的缺点

目前的WSOL方法是在给定类标签的情况下生成bbox,它有以下几个缺点:

  • 学习目标不明确,导致定位的性能下降。HaS和ADL表明当仅有一个CNN模型时,定位和分类不能同时进行。定位需要目标的全局特征,它是将整个目标的位置表示出来,而分类只需要目标最具有判别性的部分,也即只需要目标的局部特征。
  • CAM需要存储一个三维特征图用于计算类别的heatmap,然后来通过阈值进行过滤,而这个阈值非常难确定。

受到selective search和Faster R-CNN中生成ROI这个类不可知过程的启发,本文将WSOL分为两个独立的部分,并基于此提出PSOL,PSOL直接在生成的伪gt bbox上优化定位模型,因此解决了WSOL中的缺点。


PSOL方法实现

PSOL的通用框架如以下算法所示:
在这里插入图片描述

1. 伪bbox的生成

WSOL和PSOL最大的不同在于为训练图像生成伪bbox。在考虑伪bbox的生成时,我们自然而然的会想到检测,因为检测模型可以直接生成bbox和类标签。但是,最大的检测数据集中只有80个类,因此不能在一些更大的数据集上(如ImageNet-1k)提供通用目标定位;而且目前的一些检测器,比如Faster R-CNN需要大量的计算资源和较大的输入图像大小,这使得检测模型不能在大规模数据集上被用于bbox的生成。

既然检测模型不行,那么我们可以试着用一下别的定位方法来为训练图像生成bbox,比如弱监督和协同训练方法:

WSOL方法

目前的WSOL方法生成bbox的流程如下:

  • 首先图像 I I I被送入网络 F F F中,生成最终的特征图 G G G G ∈ R h × w × d = F ( I ) G \in \Bbb R^{h \times w \times d}=F(I) GRh×w×d=F(I) G G G通常是最后一个卷积层生成的特征图;
  • 然后 G G G在经过全局池化和最终的全连接层之后,得到标签 L p r e d L_{pred} Lpred,根据 L p r e d L_{pred} Lpred或gt标签 L g t L_{gt} Lgt,得到特定类别在最终全连接层中的权重 W ∈ R
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Inception 架构是一种用于计算机视觉的神经网络架构,它通过使用不同尺寸的卷积核来捕捉图像中的不同级别特征。近年来,研究者们对 Inception 架构进行了重新思考,提出了许多改进版本,如 Inception-v2 和 Inception-v3。这些改进版本通过更深层次的网络结构、更高效的卷积层、更强大的正则化方法等来增强模型的性能。 ### 回答2: "重新思考计算机视觉中的Inception架构"是指对计算机视觉中的Inception架构进行反思和重新设计的过程。 在计算机视觉中,深度学习网络被广泛应用于图像分类、物体检测和语义分割等任务。Inception架构是一种流行的深度学习架构之一,它的特点是使用了一系列不同尺寸的卷积核和Inception模块,以提取不同尺度下的图像特征。 然而,随着计算机视觉任务的不断发展和挑战的出现,人们开始重新思考和改进Inception架构。对Inception架构的重新思考主要包括以下几个方面: 首先,针对Inception架构中的参数数量过多和计算复杂度高的问题,人们提出了一些改进方法。例如,通过降低Inception模块中卷积核的维度和参数数量,可以减少计算量,提高网络的训练和推理效率。 其次,人们提出了一些新的模块和网络结构,以解决Inception架构在某些任务上的性能限制。例如,ResNet和DenseNet等网络结构通过引入残差连接和稠密连接,解决了深度网络中的梯度消失和信息丢失问题。 此外,人们还关注如何将Inception架构与其他架构进行融合,以进一步提升计算机视觉任务的性能。例如,人们将Inception架构与注意力机制相结合,以提高目标检测和图像分割的准确性。 总之,"重新思考计算机视觉中的Inception架构"是一个不断演进的过程。通过反思和优化Inception架构,人们可以提高计算机视觉任务的性能、准确性和效率,推动计算机视觉领域的发展。 ### 回答3: 重新思考计算机视觉中的初始架构(rethinking the inception architecture for computer vision)是指对计算机视觉模型中的初始网络架构进行重新思考和改进。 计算机视觉是人工智能领域中的一个重要分支,它致力于让计算机能够像人一样理解和处理图像和视频。而计算机视觉模型的架构对于模型的性能和效果具有很大的影响。 Inception架构是一种经典的计算机视觉模型架构,最早由谷歌在2014年提出。它通过使用多尺度的卷积层和并行结构来提高模型的性能和效果。然而,随着技术的发展和需求的变化,原始的Inception架构可能存在一些限制和缺陷。 重新思考Inception架构意味着我们需要针对当前的计算机视觉任务和要求,重新设计和改进Inception架构。有几个方面可以考虑: 首先,我们可以通过引入更先进的卷积技术和结构来改善模型的性能。例如,可以使用Dilated Convolution(空洞卷积)来增加感受野,或者使用Depthwise Separable Convolution(分离卷积)来减少参数量和计算量。 其次,我们可以将其他经典和有效的架构和思想与Inception架构相结合,以进一步提升性能。例如,可以引入残差连接(Residual Connection)来加快训练速度和提高模型的泛化能力。 此外,我们还可以针对具体的计算机视觉任务,对Inception架构进行特定的优化。例如,对于目标检测任务,可以加入适应性池化层(Adaptive Pooling Layer)来获得更好的位置和尺度信息。 总之,重新思考Inception架构是一个不断改进和优化计算机视觉模型的过程。通过结合新的技术、思想和任务需求,我们可以进一步提高计算机视觉模型的性能和效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值