2020年04月_头柱碳只狼

原创 Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty 论文笔记

前言目前的大多数single-stage目标检测器虽然在检测精度上已经有所提升，但检测的实时性依然不是很好。此外，虽然通过检测得到了目标的bbox坐标，但得到的这个bbox的不确定性是未知的。因此，这些目标检测器并不能避免错误定位（FP），因为它们输出的bbox的结果并不包含不确定性信息，也就是说并不清楚这个bbox是不是正确的。一般来说，FP指对于该目标的GT来说是不准确的检测结果，TP则是准...

2020-04-30 11:34:21 347

原创 Side-Aware Boundary Localization for More Precise Object Detection 论文笔记

前言目前的目标检测器依赖bbox回归来对目标进行定位，它通过预测几个偏移值来确定目标的位置。如果anchor与目标之间存在很大的位移，那么精确定位就变得非常困难。从而限制了整体的检测性能。本文提出了一种新方法用于目标的精确定位，作者观察到当为目标标注bbox时，使box的每条边与目标边界对齐比移动整个box更加的简便。由此，本文提出侧边感知边界定位（Side-Aware Boundary Lo...

2020-04-29 13:55:42 1026 1

原创 LaSO: Label-Set Operations networks for multi-label few-shot learning 论文笔记

前言样本合成是解决小样本学习问题的方法之一，所谓样本合成，就是在给定少量训练样本的情况下，在特征空间中利用这些训练样本合成新的样本，然后利用这些合成样本提升小样本学习任务的泛化能力。但是目前的合成方法仅处理的是每个图像中仅有一个类别标签（比如C(Img)=dogC(Img)=dogC(Img)=dog）这样的情况，而多标签的情况还从未被提及过（比如C(Img)={dog,leash,person...

2020-04-28 22:13:11 1521 1

原创 IoU-uniform R-CNN: Breaking Through the Limitations of RPN 论文笔记

前言RPN是two-stage目标检测器中的一个核心部分，它用于生成一系列proposal，并且能够过滤大部分负样本，从而避免正负样本间的极端不平衡。不过目前的RPN仍存在一些缺点：如下图所示，随着IoU的增大，RoI的数量急剧减少，造成IoU分布不平衡，训练样本的分布会偏向较低的IoU；而当IoU较大时，正样本的数量明显不足。这会妨碍检测器的优化，尤其是在IoU较高时。如下图所示...

2020-04-27 21:33:45 896

原创 Learning from Noisy Anchors for One-stage Object Detection 论文笔记

前言在基于anchor的目标检测器中，通常是根据阈值来选择正负样本——anchor与gt的IoU如果高于阈值，那么就是正样本，否则就是负样本。由于一些anchor与gt是部分重叠的，也即该anchor只包含目标的部分信息，因此基于这样的IoU来确定anchor是正样本还是负样本是不太合理的。看下图，蓝框是正样本，红框是负样本，绿框是gt。长颈鹿的头由于IoU过低，因此被作为负样本，但它对于分类与...

2020-04-26 15:59:54 1428 1

原创 Multiple Anchor Learning for Visual Object Detection 论文笔记

前言在基于anchor的目标检测方法中，检测器利用目标与anchor之间的IoU作为分配anchor的标准，每个被分配的anchor独立地监督网络学习，以进行分类与定位。也就是说，分类与定位之间是没有交互的，如果一个检测结果的定位精度较高但分类置信度较低，那么它有可能在NMS操作中被过滤掉。为了解决这个问题，本文提出Multiple Anchor Learning（MAL），这是一种可以自动学...

2020-04-24 17:12:53 3429 1

原创 CBNet: A Novel Composite Backbone Network Architecture for Object Detection 论文笔记

前言目前大多数目标检测器的backbone通常是被设计用来进行图像分类的，在ImageNet上经过预训练之后，再经过微调以进行检测。那么问题就来了，直接采用这种backbone提取图像特征以进行目标检测真的能达到最优性能吗？但是如果设计一种新的backbone并在ImageNet上对其进行预训练，要达到优秀的检测性能所付出的代价又会是非常大的。因此本文提出了一种巧妙的思想，组合现有的backbo...

2020-04-22 19:14:26 673 1

原创 IPG-Net: Image Pyramid Guidance Network for Object Detection论文笔记

前言FPN虽然通过top-down特征融合为浅层特征提供了充足的语义信息，但深层特征可能会缺少位置或空间信息，而空间信息的损失会导致特征不对齐，即anchor和卷积特征之间存在一些偏移，也就是说anchor在经历多次卷积之后，在深层特征上的位置可能和初始位置不一致。除此之外，在较深的卷积层中很容易丢失小目标。由此，本文提出了一种新的网络结构，称为图像金字塔引导网络（Image Pyramid ...

2020-04-22 11:03:57 998 3

原创 AugFPN: Improving Multi-scale Feature Learning for Object Detection 论文笔记

前言首先来说一下FPN的一些设计缺陷，如下图所示，FPN可以分为三个阶段：（1）特征融合前；（2）top-down特征融合；（3）特征融合后。每个阶段都存在一处设计缺陷：不同层级的特征之间存在语义差异。在进行特征融合前，会先将不同层级的特征经过一个1×11 \times 11×1的卷积层以降低通道数，但这一过程未考虑这些特征之间存在的巨大的语义差异。如果直接将这些特征进行融合，由于它们的语...

2020-04-21 14:44:48 1317

原创 Learning Rich Features at High-Speed for Single-Shot Object Detection 论文笔记

前言目前的single-stage目标检测器依然存在两个问题：在检测小目标时，性能不是很好。比如RetinaNet在检测COCO上的大目标时能达到47的AP，而小目标的AP只有14；大多数single-stage检测器采用在ImageNet上经过预训练的backbone来进行分类任务，然后利用目标检测数据集进行微调以实现快速收敛。但是分类任务和定位任务之间仍存在较大差异，尤其是在IoU阈值...

2020-04-20 15:14:40 377

原创 Learning Spatial Fusion for Single-Shot Object Detection 论文笔记

前言特征金字塔（比如FPN）常被用来处理目标检测时的多尺度问题，但它有一个缺点，就是不同尺度之间的不一致性，尤其体现在single-shot检测器中。具体来说就是，当使用特征金字塔检测目标时，通常使用较上层的特征图来处理大目标，而用较底层的特征图来处理小目标，如果一个目标被分配给某一层级并且被看作是正样本，那么其它层级中和该目标位置相同的区域将被看作是背景。因此，如果一个图像中同时包含大目标和小...

2020-04-19 09:49:55 329

原创 EfficientDet: Scalable and Efficient Object Detection 论文笔记

前言

2020-04-17 15:01:25 331

原创 Large-Scale Few-Shot Learning: Knowledge Transfer With Class Hierarchy 论文笔记

前言在大规模小样本学习（large-scale FSL）中，有这样一个baseline：使用所有的源类（source class）训练一个feature embedding模型，然后用这个模型提取出目标类（target class）中样本的特征，以进行最近邻分类。从下图可以看出，仅使用简单的最近邻（NN）方法得到的结果，甚至能与目前最先进的FSL模型相匹配：这就说明了一个问题：在SGM、PP...

2020-04-16 10:52:31 590 1

原创 TAFE-Net: Task-Aware Feature Embeddings for Low Shot Learning 论文笔记

前言在目前一些零样本或小样本学习任务中，通常将图像映射到embedding空间，然后利用feature embedding进行后续的操作。这样就存在一个问题，任务间共享的是通用的feature embedding，那么就会存在feature embedding可能并不适用于某些任务这样的情况，就会导致不好的结果。本文基于这一点，提出了一种task-aware feature embedding...

2020-04-15 11:23:27 1059 4

原创 Improved Few-Shot Visual Classification 论文笔记

前言小样本学习方法主要可以分为两种形式：最近邻方法和embedding方法。在embedding方法中，通常是先将图像通过非线性映射到embedding空间中，然后在embedding空间中根据预设的距离度量来进行最终的最近邻分类，原型网络采用的就是这种方法。人们发现，在经过灵活的非线性映射之后，得到的embedding基本可以适应任何距离度量，因此度量的选择似乎变得无关紧要。然而本文发现，度...

2020-04-14 14:34:39 4203 1

原创 SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning 论文笔记

前言目前大多数小样本学习器首先使用一个卷积网络提取图像特征，然后将元学习方法与最近邻分类器结合起来，以进行图像识别。本文探讨了这样一种可能性，即在不使用元学习方法，而仅使用最近邻分类器的情况下，能否很好地处理小样本学习问题。本文发现，对图像特征进行简单的特征转换，然后再进行最近邻分类，也可以产生很好的小样本学习结果。比如，使用DenseNet特征的最近邻分类器，在结合均值相减（mean sub...

2020-04-13 21:25:46 1533

原创 Meta-Transfer Learning for Few-Shot Learning 论文笔记

前言元学习（meta-learning）是目前广泛使用的处理小样本学习问题的方法，它的目的是在学习不同任务的过程中积累经验，从而使得模型能够快速适应新任务。比如在MAML（Model-Agnostic Meta- Learning）中，通过搜寻最优初始化状态，使得base-learner能够快速适应新任务。但是这一类元学习方法具有两个缺点：需要大量相似的任务以进行元训练（meta-train...

2020-04-13 15:28:29 2486

原创（AM3）Adaptive Cross-Modal Few-shot Learning 论文笔记

前言本文提出了一种利用跨模式（cross-modal）信息（视觉特征和语义特征）来增强基于度量的小样本学习的方法。一般来说，当来自视觉模式的数据有限时，利用辅助模式的数据（属性，未被标记的文本语料库等）也可以帮助进行图像分类，这种方法在零样本学习中使用的特别多。在训练时，会通过模式对齐（modality-alignment）将视觉模式与辅助模式的数据映射到一块儿，从而迫使它们具有相同的语义结构...

2020-04-12 19:58:31 802 1

原创 Fast and Flexible Multi-Task Classification Using Conditional Neural Adaptive Processes 论文笔记

前言通用图像分类系统设计元学习和小样本学习，现有的一些研究通常会考虑在训练和测试时进行均匀的任务分配，因此网络在处理新任务时只需进行很小的调整。本文设计了一个完全自适应的系统，以应对不同的任务分配情况，该系统需要在模型和训练过程中进行特定的设计选择。现有的用元学习和小样本学习来处理图像分类的方法具有两个基本的trade-off：适应每个任务的参数数量。一种方法仅调整分类器的head中的参数...

2020-04-12 12:06:18 1689

原创（IoU-Net）Acquisition of Localization Confidence for Accurate Object Detection 论文笔记

前言

2020-04-11 15:12:38 339

原创 IoU-aware Single-stage Object Detector for Accurate Localization 论文笔记

前言一般来说，multi-stage目标检测器的AP较好，而检测效率较低，而single-stage目标检测器虽然检测效率较高，但AP不如multi-stage检测器。本文就是希望在保持检测效率的同时，提高single-stage检测器的AP，尤其是定位精度。论文证明了single-stage检测器中分类分数和定位精度之间的低相关性，导致了模型的性能尤其是定位精度较低。而过低的相关性主要是因为分...

2020-04-06 12:01:57 969

原创 Cap2Det: Learning to Amplify Weak Caption Supervision for Object Detection 论文笔记

前言弱监督目标检测（WSOD）在训练时不需要详尽的box标注，但它要求image-level标签必须是准确的，也即在图像中至少有一个目标的标签是这个类，但是这些image-level标签依然需要人为实现。那么有没有更加自然的监督方式呢？答案是有的！比如当用户向网上上传图像时，通常会带有一些自然语言描述，或者一些视频的子标题。这些标注都是自然而然产生的，即人们是自愿提供的，因此这些标注与image...

2020-04-05 14:25:38 488

原创 Rethinking the Route Towards Weakly Supervised Object Localization 论文笔记

前言通常来说，深度学习在一些计算机视觉任务上的应用，比如分类、定位和检测，需要大量精确标注的数据，而模型在这些数据集上进行预训练之后，并不能直接应用到其它的任务中。为了减少这种限制，人们开始利用弱监督方法来进行学习，弱监督的训练数据一般只有image-level标签，没有大型数据集中的location-level（bbox和关键点）和pixel-level（每个像素都有一个类标签，用于语义分割）...

2020-04-04 11:40:23 1527

原创 Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector 论文笔记

前言小样本目标检测，即给定一个新类的支持集（support set），该支持集中只有少量的样本，需要在测试集（test set）中检测出所有属于该新类的前景目标。如下图所示，左上角和右上角分别是两个不同类别的支持集样本，自行车和头盔，在下面的查询集（query set）图像中检测出所有属于自行车和头盔这两个类的目标。在目前一些小样本目标检测算法中，bbox可能会漏检一些目标，或者在背景中生成...

2020-04-03 11:34:05 692

原创 Bridging the Gap Between Anchor-based and Anchor-free Detection 论文笔记

前言近几年的目标检测方法主要可以分为anchor-based和anchor-free，anchor-based可以进一步分为one-stage和two-stage，不论哪一种，都要在图像上预先设定大量的anchor，然后预测anchor的类别并修正anchor的坐标，以得到最终的检测结果。随着FPN和Focal Loss的提出，anchor-free的方法越来越受到人们的关注。anchor-f...

2020-04-01 15:52:51 229

qq_30146937的博客