小目标检测的上下文感知块网络(翻译)

摘要:目前的目标检测器通常对输入图像逐步下采样,直到它被小的特征映射表示,这失去了空间信息,损害了小目标的表示。在本文中,我们提出了一种上下文感知块网络(CAB net),通过构建高分辨率和强语义特征映射来改进小目标检测。为了从内部增强高空间分辨率特征图的表示能力,我们精心设计了上下文感知块(CAB)。CAB利用金字塔扩张卷积来合并多层上下文信息,而不会丢失特征图的原始分辨率。然后,我们将CAB组装到截断骨干网的末端(例如,VGG16),具有相对较小的下采样因子(例如,8),并丢弃所有后续层。CAB Net既能捕获小目标的基本视觉模式,又能捕获小目标的语义信息,从而提高了小目标检测的性能。在清华-腾讯100K基准和机场数据集上进行的实验表明,在保持实时速度的同时,CAB Net大大优于其他性能最好的检测器,证明了CAB Net在小目标检测方面的有效性。

索引术语:上下文信息,卷积神经网络,锥体扩张卷积,小目标检测,空间信息。

精读:从内部增强高空间分辨率特征图,设计一个检测小目标的网络CAB,并在TT100K(小目标数据集)上做实验

重点总结:主要是根据膨胀卷积金字塔来获取更多的上下文信息,并且不破坏空间结构来提升对小目标检测的精度

1引言

小对象检测在许多实际应用中是必不可少的,例如自动驾驶和智能监控。小物体通常只占图像中的几个像素。例如,清华-腾讯100K(简称TT100K)[1]中真实图像中的典型交通标志可能是2048×2048像素图像中的30×30像素,不到图像分辨率的1.5%。在真实图像中检测此类小目标是一项具有挑战性的任务,因为它们的分辨率相对较低,图像中的信息较少

精读:小目标检测的重要性,并介绍TT100k为小目标集,以他为基准

fig1
(a)自下而上网络中的低级精细特征图,(b)自上而下架构中的高级语义特征图,以及(c) CAB网络中的强语义和精细特征图。

近年来,一些方法[2]-[9]致力于提高小目标检测的性能。典型的一种方法[2]-[4]是对具有丰富小物体精细细节的高分辨率特征图进行预测,如图1(a)所示。然而,由于高分辨率特征图包含较少的上下文信息,从而影响了检测的准确性,因此性能仍然不太令人满意。

图1(b)所示的其他有效方法[5]-[9]试图开发具有跳过连接的自顶向下架构,用于在所有尺度上构建高级语义特征图。这些系统可以在高分辨率特征图中引入额外的上下文,从而大大提高检测精度。然而,由于模型复杂性的增加,这些方法在训练和测试阶段的计算成本都很高。此外,这些模型逐步将输入图像缩减为保留少量信息的小特征图(如7×7),用于小目标检测,然后尝试重建空间分辨率。实际上,小物体的信号一旦由于降采样而丢失,几乎不可能恢复

精读:这二段讲前人对小目标检测有改进但有不足

正如Y等人在[10]中指出的那样,卷积网络不需要将图像粉碎成非常小的特征映射来进行对象定位。特别是对于小目标检测,高分辨率的特征映射表示更适合于精确定位实例。那么,为什么不将特征图保持在更高的分辨率(例如,64 × 64)以用于小目标检测呢?主要原因是底层生成的高分辨率特征图[图2(a)]上的神经元具有有限的接受野。因此,这些特征映射中包含的上下文信息相应受到限制,从而降低了目标检测的性能。相比之下,低分辨率的顶层特征图[图2(b)和(c)]可以从更大的输入空间区域中提取更多的上下文信息。然而,大多数小物体的细粒度细节对小物体检测至关重要,但由于过度降采样而在顶层丢失。因此,对于小目标检测,神经网络在保持特征图空间结构的同时增加神经元的接受野是非常重要的。

精读:这一段通过前人二个不足:有限的接受野和上下文信息相应受到限制得出结论:对于小目标检测,神经网络在保持特征图空间结构的同时增加神经元的接受野是非常重要的

受上述观察的启发,我们在本文中提出了一种用于小目标检测的上下文块网络(CAB net),如图1(c)所示。在CAB网络中,我们只在主干网络内对输入图像进行多次下采样,以保留小实例的精细空间信息。为了弥补由于下采样减少而导致的语义信息不足,设计了上下文感知块(CAB),采用金字塔扩张卷积将上下文信息合并到特征映射中,而不降低分辨率。然后,我们将CAB添加到骨干网络中前几层的末尾,并删除所有后续层。最终,在每个特征图位置生成具有不同纵横比和比例尺的边界框的类别分数和偏移量。

请注意,CAB利用多个分支中膨胀率不断增加的膨胀卷积来捕获本地和全局上下文信息,以便更好地表示不同规模的对象实例。CAB的不同分支对应不同层次的语义信息,因此负责检测不同尺度的对象。此外,CAB的所有分支都输出了相对高分辨率的特征图,可以保留小物体的精细细节

总结一下,本文的贡献如下。

1)我们设计了一种新的CAB,它由四个分支组成,每个分支采用一组扩张卷积,扩张率增加。在不损失空间分辨率的情况下,基于CAB的锥体扩张卷积可以系统地将多层上下文信息聚合到特征映射中。

2)提出了CAB网络,通过同时构建低级细节和高级语义特征图来改进小目标检测。CAB网络可以同时保留小目标的空间信息和上下文信息,从而在不增加模型复杂度的情况下大大提高检测精度。

3)在TT100K和Airport等具有挑战性的数据集上进行的实验表明,所提出的CAB网络可靠地提高了小目标检测的性能。CAB网络在以实时速度运行的同时,在很大程度上优于最先进的探测器

精读:受前人对小目标检测研究的启发,本文作者提出了自己的小目标检测网络CAB,并介绍了本文的研究贡献和具体安排

2相关工作

近年来,深度卷积神经网络广泛应用于计算机视觉领域的各种任务[11]-[15],取代了传统方法[16],[17]。对于目标检测,在主要挑战和基准测试(如Pascal VOC[18]和MS COCO[19])上,性能在准确性和速度方面不断提高。然而,在更具挑战性的数据集(如TT100K)上,很少有好的小对象检测解决方案,其中对象通常只占图像的一小部分。在这篇文章中,我们专注于在这些具有挑战性的数据集上提高小目标检测的准确性和推理速度。

A.目标检测

基于区域的R-CNN系列,包括R-CNN[20]、快速R-CNN[21]、更快R-CNN[22]和掩模R-CNN[7],首先提取区域提议,然后对每个提议进行分类回归,得到检测结果。这些两阶段的方法产生了巨大的计算成本,因此对于实际应用来说是不切实际的。为了加快推理速度,SSD[4]、YOLO[23]等单阶段方法省略了提议生成阶段,实现了实时处理

这些典型的目标检测器在一般目标检测上表现良好。它们在一些应用领域也取得了巨大的成功,如显著目标检测[24]、[25]、地标检测[26]、[27]和表面检测[28]、[29]。然而,当应用于包含小物体的场景时,这些检测器远远不能满足现实世界的应用。上述检测器性能差的关键原因之一是由于在非常深的卷积网络中过度降采样而导致小对象实例的空间信息丢失。

精读:介绍目标检测发展历程,然后提出这些检测器在小目标检测性能差

B.小物体探测

最近,已有的目标检测器[5]-[7]引入了特征金字塔网络,通过重构小特征地图的空间分辨率来解决上述问题。DSFD[30]和vsa - net[31]等方法利用带有跳跃连接的金字塔型特征映射构建特征融合架构。Zhang等[32]基于更快的R-CNN,在全连通层中应用了基于注意力的模块进行交通标志检测。这些系统表现出显著的性能提升,特别是在小目标检测方面。然而,这些算法由多个融合层组成,同时导致计算成本高,并且由于运行速度低而不适合实际应用。

Li等[33]提出了一种感知生成对抗网络(perceptual GAN)模型,通过缩小小物体与大物体的表示差异来改进小物体检测。Kisantal等[34]通过多次复制粘贴小目标来增强图像,从而提高MS COCO对小目标的检测能力。Chen等[35]致力于增加输入图像的尺度来增强小物体的表征。这些方法通过简单的数据增强或增加输入的大小来提高小目标检测的性能,导致大量的训练和测试时间消耗

精读:介绍前人对小目标检测的改进,提出他们改进的不足

C.扩张卷积(重点看下)

有几种技术[10],[36],[37]使用扩张卷积来丰富特征映射的语义信息。Y u和Koltun[36]通过引入扩展卷积来聚合上下文信息以进行语义分割,开发了一种新的卷积网络模块。随后,他们将扩展卷积应用于残差网络,即drn[10],在ImageNet上获得了弱监督定位的top-1精度。[37]中提出了一种新的接收野块(RFB),通过使用扩张卷积来增强特征的可判别性和鲁棒性。然而,这些架构对于小目标检测仍然不太令人满意。

受这些架构的启发,我们提出了CAB,通过使用不同速率的金字塔扩张卷积来包含多层次的上下文信息。然后,我们将CAB插入到VGG16[38]中,其中小物体的精细细节仍然存在,称为CAB网,所提出的CAB网络在小目标检测方面有了很大的改进。

3方法

在本节中,我们首先介绍了能够聚合多层次上下文信息的CAB,然后描述了通过将CAB插入到轻量级骨干网中来提高小目标检测性能的CAB网络。

A.上下文感知块

CAB的典型管道是用来聚合上下文信息的,如图3所示。具体来说,我们首先引入一个1 × 1的卷积层作为瓶颈层[39],[40]来降低输入特征映射的通道维度(例如,从c到(c/2),其中c是输入通道的数量)。其次,在不增加参数的情况下,应用n (n = 1,2,3,…)个核大小为k × k (k > 1)的堆叠展开卷积层,在更大的区域捕获上下文信息。第三,利用一个额外的1 × 1卷积层将通道恢复到c。然后,受ResNet[41]和Inception-ResNet V2[42]的启发,我们与输入层进行了一个快捷连接,使CAB更容易优化。最后,在L2归一化层之后,应用一个1 × 1的卷积层来确保检测特征的可判别性。注意,CAB管道中的每个卷积层后面都有一个Relu层。

设n为堆叠k × k个展开卷积层的个数,其中k为滤波器的大小。我们设第n次卷积的膨胀率(r)为2n−1,那么核大小k?膨胀后计算为

其中k在我们的网络中被设为3。设Rn为第n层的有效接受场,定义为

其中Rn−1为第n−1层的接受场,si为第i层的步幅。假设核大小k为3,扩展卷积的步幅si (i = 1,2,…), n) = 1。在这种情况下,第n次展开卷积的核为(4n−1)2有效接受野为(2n2 + 1)2,如表1所示。注意,为了保留输出特征图的空间分辨率,所有扩展卷积的步长都设置为1。也就是说,随着n的增加,感受野可以在参数增长有限的情况下快速扩展,而不会丢失空间信息。

表1

假设有三个扩张的卷积,即n = 3。CAB输出层上元素的有效接受场如图4所示。输出层的神经元可以通过使用堆叠的扩张卷积感知输入空间中越来越大的区域,从而捕获更多周围的上下文信息。通过这种方式,CAB通过扩大神经元的接受野来增强上下文信息,并捕获用于目标检测的高级语义信息。

fig4

对于CAB管道中给定的n,有一个相应的固定大小的接受场,如表1所示。为了实现多大小的接受场,我们并行地使用多分支扩展的卷积层,每个分支具有特定的n。将CAB中的分支数记为N,我们在第IV -E节中比较不同N下CAB的性能。考虑到准确性和速度,我们在提出的CAB中精心选择了N = 4(即每个分支的N = 1,2,3,4),如图5所示。我们观察到CAB的每个分支都有相似的1×1和3×3卷积层;因此,我们通过共享相同的卷积层来设计一种合理的CAB替代方案,以降低模型的复杂性,并将其命名为小版本CAB-s,如图6所示。

图5CAB
图6CAB-s

注意,CAB和CAB-s中卷积层的所有步长都设置为1。因此,空间结构输出仍然是可识别的输入,但更具描述性和信息性。瓶颈层的设计是为了降低模型尺寸和计算复杂度,使CAB和CAB-s更高效。此外,我们在CAB和CAB-s中对每个分支应用L2归一化,使训练更加稳定。

CAB不是在RFB模块的每个分支中使用一个扩展卷积[37],而是在每个分支中使用几个连续的扩展卷积,这是专门为小物体的密集预测而设计的。在CAB中,堆叠的扩张卷积导致更大的接受野,从而包含更多的上下文信息,这有利于小目标的检测

精读:CAB连续用几个扩展卷积堆叠,有利于获得更多的上下文信息,有利于小目标的检测

B. CAB网络

由于其通用结构,CAB具有足够的灵活性,可以插入任何骨干网络和现成的检测器。考虑到精度和效率之间的权衡,我们将CAB组装到单级框架SSD中示范。SSD在小目标检测方面的性能很差,因为它以步幅2逐步下采样输入图像,直到输出分辨率为1 × 1,对于小实例几乎没有空间信息。

在本节中,我们开发了CAB Net,其中输出的特征图具有用于小目标检测的高空间分辨率,如图7所示。本文提出的检测流程包括三个阶段:1)空间池化;2)上下文聚合;3)目标检测。我们将在下面详细介绍这三个阶段。

图7

1)空间池化:在第一阶段,将图像调整为512 × 512作为输入,然后在卷积神经网络中进行下采样,进行特征提取,类似于传统架构。这部分可以采用多种骨干网,如VGG[38]、deep ResNet[41]等。本文选择典型的VGG16作为骨干网进行演示。如第1节所分析,浅层特征图的内部表示对于定位小物体更为准确。因此,我们只对输入图像进行8倍的下采样,并在原始VGG16网络中进行Conv4后丢弃所有以下层,以保留小目标的精细空间信息。

2)上下文聚合:在阶段2中,我们将CAB或CAB-s组装到阶段1的末尾,如图7所示。虽然在这一阶段特征图不再被下采样(剩余64 × 64),但具有多个分支的扩展卷积层可以系统地包含多层次的上下文信息。因此,这一阶段的输出与输入一样可识别,但更具描述性和信息性

图8展示了使用[43]的类激活映射。通过对不同空间位置存在的视觉模式进行加权和得到类激活图,可以突出类特定的判别区域。为了更好地可视化,我们放大了包含交通标志的区域,如图8(a)所示。图8(b)和(c)分别是由CAB输入和输出的热图。我们观察到,图8(b)中高亮显示的区域在不同的空间位置(包括背景)是不同的

图8
通过CAB进行上下文聚合前后类激活映射的比较。(a)输入网络的原始图像。(b)在Conv4上生成的类激活图(输入到CAB)。(c) CAB在输出的层上生成的类激活图。CAB输出的热图(c)可以准确定位交通标志。红色矩形表示目标区域。

由于无需下采样,CAB可以保留从底层学习到的底层特征,有利于小目标的定位。同时,CAB还可以利用金字塔扩张卷积捕获有利于目标分类的高级语义特征,如形状和轮廓。如图8(c)所示,CAB输出的判别区域主要集中在期望的目标区域。因此,CAB学习到的特征既包含基本的视觉模式,又包含互补的高级语义信息,并在后期用于检测。

值得注意的是,CAB可以插入网络中任何具有不同分辨率的层,例如较早的层Conv2和Conv3,甚至是输入的全分辨率。然而,将CAB插入较早的层并不是一个实际的选择,因为增加特征映射的规模可能会导致内存和时间复杂度的飙升(更多细节请参见第IV-E节)。

3)目标检测(省略):在第三阶段,在SSD之后,我们将3 × 3 × (6 × (C + 4)) (C是类的数量)的小核应用于第二阶段生成的所有特征映射。这些卷积在特征图的每个位置预测具有不同比例和纵横比的六个边界框的分类分数和形状偏移量。

4实验********

该实现基于Caffe库[44],在带有两个Nvidia 1080Ti gpu的机器上实现。VGG16在ILSVRC CLS-LOC数据集上进行预训练[45],然后在TT100K和Airport训练集上对网络进行微调。使用平均精度(mAP)检测指标对两个数据集进行评估,其中当边界框与地面真值框的IOU大于0.5时,认为该方法是准确的。

为了与其他最先进的检测器进行比较,我们使用Detectron1在两个数据集上训练更快R-CNN[22]、[41]、FPN[5]和掩码R-CNN[7]。这些方法中的锚点尺度设置[162,322,642,1282,2562],而不是原来的[322,642,1282,2562,5122],以便更好地匹配图像中面积较小的目标。至于RFBNet[37],我们使用PyTorch-0.4.0对两个数据集上的模型进行了微调,代码可在https:https://github.com/ruinmessi/RFBNet上获得。具体来说,学习率从0.004变为0.001;批大小和最大epoch分别设置为32和500。多层默认框的尺度为[252,502,7 52,1002,1502,2002,3002],纵横比与RFB网保持一致。

精读:这二段介绍IOU设置,实验设置,锚框设置

A.数据集(重要)

我们在两个数据集上评估CAB Net, TT100K包括交通标志和机场包括人头。TT100K和Airport的样本图像和地面真值如图9所示,其中目标通常只占图像的一小部分。

对于TT100K,我们忽略了[1]之后少于100个实例的类别,这样就剩下45个类需要检测,如表2所示。基准数据集可在http://cg.cs.tsinghua.edu.cn/traffic-sign/上公开获取。Zhu等通过将交通标志粘贴到新的街景图像中,增加训练集中100到1000个实例的类,为它们提供1000个实例。为了避免不同增强策略的影响,我们在原始训练集(包括6105张图像)上对所提出的CAB网络和其他检测器进行微调,并在原始测试集(包括3071张图像)上进行测试,以进行公平的比较

B. TT100K的结果

对于TT100K,我们在前120k次迭代中应用10−3的初始学习率,然后在接下来的80k次迭代中将其降低到10−4,在另外40k次迭代中将其降低到10−5。迭代的总次数为240k,批大小设置为16。根据[4],使用SGD将动量衰减和权重衰减分别设置为0.9和0.0005。

精读:这一段介绍CAB在TT100K上的超参数设置

表III显示了所提出方法和其他流行检测器在TT100K测试集上的mAP和AP。可以看出,CAB Net和CAB-s Net的mAP分别达到78.0%和77.6%。由于减少了卷积层和Relu层,CAB-s网络略逊于CAB网络。

值得注意的是,CAB Net优于两级检测器更快的R-CNN(52.9%[22]和61.1% [41]mAP)及其流行的变体,如FPN(69.9%,比mAP高8.1%)和掩膜R-CNN(70.8%,比mAP高7.2%),尽管它们基于深度ResNet-101并且具有更大的输入大小。此外,CAB Net也可以使用类似的输入大小超过一级检测器,例如,SSD512(68.7%,比mAP高9.3%),DSSD512(69.5%,比mAP高8.5%),RFB Net 512(74.4%,比mAP高3.6%)和ScratchDet(74.0%,比mAP高4.0%)。这些显著的改进表明了CAB网络在检测小目标方面的优越性。

在这些方法中,RFB Net也应用了扩展卷积。与相同输入规模的RFB Net相比,CAB Net和CAB-s Net分别获得3.6和3.2个点的增益,如表III所示。这种改进有两个原因:一是CAB的每个分支中的金字塔扩展卷积(而不是RFB模块的每个分支中的单个扩展卷积)增加了网络的表示能力;二是CAB Net输出的特征图具有较高的分辨率,并且保留了更多的空间信息,因此所提出的模型对于小目标检测的能力更强。

此外,在表III所示的技术中FPN、DSSD和ScratchDet都是为了改进小目标检测而设计的。尽管如此,CAB- Net和CAB-s - Net仍然有很大的余量超过它们,这进一步证明了所提方法在小目标检测方面的有效性。同时,CAB Net对于大多数类别也产生最高的AP,例如“p6”和“w55”,其中小对象实例最常见。这些改进主要归功于CAB保存的小物体的丰富精细细节

C.推理速度

我们使用机场数据集中的1000张图像来评估所提出模型的速度。在具有一个1080Ti GPU的机器上,批量大小设置为1。为了公平的比较,我们也用相同的实验装置验证了其他方法。结果列于表四的第五栏。

表四

在512 × 512输入时,CAB Net的运行速度为27.9 FPS,与SSD512 (28.9 FPS)相当。CAB网能够实现实时处理,其主要原因是CAB中设计的轻型骨干网(仅VGG16的前4层)和信道缩减层所需的参数较少。借助小版本设计,CAB-s Net可以进一步将推理速度从27.9 FPS提升到37.2 FPS。这种改进得益于共享卷积层的计算友好性。无论使用哪种骨干网,CAB- Net和CAB-s - Net都比两阶段算法快得多。此外,所提出的模型在速度上也超过了一级目标检测器,这表明了CAB网络设计的有效性。

当应用不同的输入大小和批处理大小时,我们还评估了CAB Net的速度,如表5所示。对于CAB Net512(输入大小为512 × 512),当批大小从1增加到4时,推理速度从27.9 FPS提高到33.4 FPS。至于更大的输入当批量大小为1024 × 1024时,CAB Net1024的速度分别为13.9 FPS和14.6 FPS。较大的批处理大小(> 2)将导致内存不足错误。虽然与CAB Net512相比,CAB Net1024的速度急剧下降,但它仍然比表4中输入大小为1000 × 800的方法快三倍以上。这种性能得益于CAB的优雅设计。

表5

不同数据集的推理速度不同,因为Airport只有一个类别,而TT100K有45个类别。对于TT100K,网络在NMS阶段需要进行更多的预测和处理更多的边界框,这是非常耗时的。TT100K上的速度在第IV-E节中讨论。

D.消融实验

为了更好地理解CAB和CAB网络,我们研究了各种组件的性能。所有实验均在TT100K数据集上进行。

分支数量:我们首先比较了当选择不同的N (CAB中的分支数量)时CAB网络的性能。从表6可以看出,随着N从2增加到5,准确率不断提高,而推理速度则逐渐下降。将N从4增加到5只会带来微小的改善(从78.0%到78.2% mAP),而速度从26.5下降到18.9 FPS。

表6

考虑到准确性和速度,我们选择N = 4作为CAB的默认设置。与Airport数据集相比,TT100K上的推理速度因为类别更多(45个类别)而减慢。然而,当N = 4时,CAB Net的运行速度为26.5 FPS,仍然可以实现实时处理。

不同深度的检测:我们还尝试评估将CAB装配到具有更高分辨率特征映射的层(如Conv2和Conv3)的检测性能。本消融研究将N设为4,结果见表7。观察到,对于推理速度而言,CAB Net在来自Conv3的128 × 128特征图上仅以8.7 FPS的速度运行,而在来自Conv2的256 × 256特征图上的检测甚至超出了我们现在的硬件在内存方面。相比之下,Conv4层的检测速度(26.5 FPS)比Conv3层快3倍以上。因此,Conv2和Conv3层在计算上不适合实时应用。对于检测精度,mAP与Conv3相比,使用Conv4获得的结果也高出5.7%(78.0%对72.3%)。这是因为Conv3层的神经元接受野有限,导致特征图的语义信息相对较差。总的来说,Conv4层是这三者中的最佳选择层,同时考虑到检测速度和准确性。

表7,插入到不同分辨率层CAB的实验结果

E。可视化(重点学习比较方法)

TT100K和Airport测试集上分类得分高于0.6的部分可视化结果分别如图10和图11所示。通过放大图片,可以看到更多检测结果的细节。为了更好地可视化,我们特意展示了图10中用白色矩形标记的交通标志区域的截图。在Airport数据集中只有一个类头,因此我们不显示标签,而只显示图11中的边界框。可以看出,CAB Net可以处理复杂光照下的各种场景。

图10
图11

此外,我们还展示了CAB Net与其他方法在TT100K测试集上的部分检测结果,如图12所示。绿色、红色和橙色的矩形边框分别代表真阳性、假阳性和假阴性。与其他算法相比,CAB网络可以更准确地检测出交通标志,特别是对于较小的交通标志,这验证了CAB网络在小目标检测中的有效性。

精读:这中比较真阳性、假阳性和假阴性的可视化方法(可以借鉴)

图12,TT100K测试机上检测结果对比。为了更好的可视化,我们放大了所有的对象区域。绿色、红色和橙色的矩形边框分别代表真阳性、假阳性和假阴性。我们观察到CAB网的结果比其他方法更准确。放大查看更多细节。

为了进一步证明CAB网络的鲁棒性,我们从互联网上下载了一些包含交通标志的图像也与TT100K的高分辨率图像不同,这些图像通常分辨率较低,并且覆盖了天气条件和照度的大变化。此外,这些图像中的交通标志具有不同的尺度和纵横比。我们使用在TT100K上训练的模型对这些图像进行测试,结果如图13所示。在图像模糊的情况下,CAB网络仍然可以很好地进行多尺度目标检测,这得益于CAB中设计的多分支。同时,这些令人信服的性能也证明了CAB网络的泛化能力

图13

5结论

本文介绍了一种快速、准确的小目标检测神经网络。我们使用锥体扩张卷积层来扩大神经元的感受野,而不损失空间分辨率。主要特性在保留空间信息的同时,增强小目标的上下文信息。实验表明,该模型在保持实时速度的同时,对小目标的检测精度有了显著提高。为了进一步改进CAB Net,用更强大的骨干网(如ResNet[41]和DenseNet[39])取代VGG是一个令人信服的选择,这将在我们未来的工作中进行探讨。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在YOLO目标检测中,可以通过多种方式加入上下文信息来提高检测性能和对背景的感知能力。 1. 多尺度特征融合:YOLOv3及其后续版本采用了多尺度特征融合的策略。在网络的不同层级中提取的特征图具有不同的感受野和语义信息。通过将浅层特征与深层特征进行融合,可以获取更全局和更局部的上下文信息,从而提升检测性能。 2. 上采样和跳跃连接:YOLOv3中引入了上采样和跳跃连接机制。通过在网络中插入上采样层,可以将低分辨率的特征图上采样到与高分辨率特征图相同的尺寸。然后,通过将上采样后的特征图与对应层级的低分辨率特征图进行跳跃连接,可以获得更丰富的上下文信息。 3. 注意力机制:注意力机制可以用来引导模型关注感兴趣的区域或特征。通过引入注意力机制,可以使模型在目标检测过程中更加关注目标及其周围的上下文信息,提高检测的准确性和鲁棒性。 4. 数据增强:在训练阶段,可以通过在输入图像中引入一些背景区域或上下文信息的变化来增强模型对上下文感知能力。例如,可以随机裁剪输入图像,并将包含目标和背景的不同区域作为训练样本,从而让模型学习到不同背景下的目标特征。 需要注意的是,以上方法可以结合使用,具体的实现方式可能因YOLO的版本和应用场景而有所不同。根据具体需求和实验效果,可以选择合适的方法来加入上下文信息以提升YOLO目标检测的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值