卷积神经网络算法_基于卷积神经网络的多尺度Logo检测算法

最新推荐文章于 2024-08-24 10:07:17 发布

weixin_39613385

最新推荐文章于 2024-08-24 10:07:17 发布

阅读量3.3k

点赞数 1

文章标签：卷积神经网络算法

本文链接：https://blog.csdn.net/weixin_39613385/article/details/111362112

版权

本文提出了一种基于卷积神经网络（CNN）的多尺度Logo检测算法，通过特征金字塔和多尺度区域生成网络增强候选区域生成，再结合特征融合网络提高检测性能。在FlickrLogos-32数据集上的实验表明，该算法提升了小尺度Logo的检测性能，同时保持了大中尺度Logo的检测精度。

摘要由CSDN通过智能技术生成

基于卷积神经网络的多尺度Logo检测算法

江玉朝, 吉立新, 高超, 李邵梅

国家数字交换系统工程技术研究中心，河南郑州 450002

摘要：针对自然场景图像中多尺度Logo的检测需求，提出了一种基于卷积神经网络的多尺度Logo检测算法。该算法基于两阶段目标检测的实现思路，通过构建特征金字塔并采取逐层预测的方式实现多尺度候选区域的生成，通过融合卷积神经网络中的多层特征图以增强特征的表达能力。在FlickrLogos-32数据集上的实验结果显示，相比基线方法，所提算法能够提升生成候选区域的召回率，并且在保证大中尺度 Logo 检测精度的前提下，提升小尺度Logo的检测性能，验证了所提算法的优越性。

关键词: Logo检测 ; 卷积神经网络 ; 多尺度 ; 区域生成网络 ; 特征融合

中图分类号：TN391

文献标识码：A

doi:10.11959/j.issn.2096−109x.2020026

1 引言

在计算机视觉领域，多尺度目标检测一直是一项具有挑战性的基础课题。近年来，随着卷积神经网络(CNN，convolutional neural network)的发展，针对大中尺度的目标检测取得了重大突破，而对于小目标，由于受到小目标像素少、分辨率低、背景干扰等因素的影响，相应算法的检测性能仍十分受限。作为目标检测的一个特例， Logo检测在品牌趋势预测、商标产权保护、车辆标志识别等领域有广泛的应用。当前，基于 CNN 的多尺度目标检测主要有以下两类实现思路：一类是以 Faster R-CNN为代表的两阶段方法，此类方法首先生成一定数量的候选区域集合，然后使用分类算法对提取的候选区域进行类别判定和位置精修；另一类是以SSD为代表的单阶段方法，此类方法直接在CNN 的多尺度特征图上预测目标类别和边界框回归参数。与两阶段方法相比，单阶段方法在设计之初主要侧重于优化检测的速度，在算法精度方面始终与两阶段方法存在一定差距。因此，本文基于两阶段的实现思路研究自然场景图像中多尺度 Logo 目标的检测问题，即第一阶段利用候选区域生成算法提取出场景图像中可能包含Logo目标的子区域；第二阶段对该子区域进行类别判定并做进一步的位置精修。显然，对于这样的检测流程，第一阶段生成候选区域的优劣将直接影响检测算法的性能。作为两阶段目标检测的代表方法，Faster R-CNN通过构建区域生成网络(RPN，region proposal network)生成候选区域。具体而言， RPN 在基础特征提取网络之后的单尺度特征图上通过预定义的多尺度锚点(anchor)进行密集采样得到初始候选区域集合，而后经前景分类筛选、边界框回归、非极大值抑制等步骤得到最终的候选区域。这其中存在两个问题：① 单尺度特征图的感受野难以适应多尺度目标，造成与感受野尺度不匹配目标的检测性能受限；② 预定义的锚点尺度未能适应小目标，导致小目标在RPN训练阶段生成的正负样本数量严重不平衡。为解决上述问题并适应Logo检测应用场景，本文提出了一种基于CNN的多尺度Logo检测算法。算法在Faster R-CNN的基础上，通过构建特征金字塔并采取逐层预测的方式实现多尺度候选区域的生成，利用理论感受野指导特征金字塔层级的设计，结合有效感受野以及Logo对象的先验知识指导预定义锚点的设计，使特征金字塔的每层用于生成特定尺度的候选区域。此外，本文借鉴现今流行的多尺度特征融合思想，在基础网络和目标检测网络之间增加了多尺度特征融合网络，用于融合多层次特征以增强目标检测网络输入特征的表达能力。实验方面，本文在 Logo检测的benchmark数据集FlickrLogos-32上进行了详细的算法验证，相比于基线方法，本文算法的实验结果取得了明显优势(mAP 85.7% VS 81.1%)，验证了本文算法的优越性。

2 相关工作

2.1 多尺度目标检测

现阶段存在很大一部分工作致力于解决多尺度目标的检测问题。图像金字塔思想通过对原始图像进行简单缩放构造图像的多尺度副本，进而实现多尺度目标检测，通常构造图像金字塔能够显著提升算法的检测精度，但与之而来的庞大内存和时间开销往往令许多实际应用难以承受。鉴于 CNN 的层次结构本身具有天然的多尺度金字塔形状，一些方法选择直接在特征金字塔各层上预测特定尺度的目标，此类单阶段方法一般在速度上具有明显优势，但浅层的高分辨率特征通常难以支撑细粒度的目标分类，导致针对小目标的检测效果一般。因此，文献[15-16]采用多尺度特征融合的方式弥补小目标检测性能的不足，此类算法通过融合语义信息丰富的高层特征和高分辨率的浅层特征，