显著性背景感知的多尺度红外行人检测方法(阅读笔记)

1、本文总览

该文提出一种具备背景感知能力的多尺度红外行人检测方法,在提高小目标检测性能的同时,减少冗余计算。

  • 首先,构建了4尺度的特征金字塔网络分别独立预测目标,补充高分辨率细节特征。
  • 其次,在特征金字塔结构的横向连接中融入注意力模块,产生显著性特征,抑制不相关区域的特征响应、突出图像局部目标特征。
  • 最后,在显著性系数的基础上构建了锚框掩膜生成子网络,约束锚框位置,排除平坦背景,提高处理效率。

实验结果表明:

  • 显著性生成子网络仅增加5.94%的处理时间,具备轻量特性;
  • 超大视场(U-FOV)红外行人数据集上的识别准确率达到了93.20%,比YOLOv3高了26.49%;
  • 锚框约束策略能节约处理时间18.05%。

本文提出一种具有背景结构感知能力的多尺度行人检测模型。设计了一个4层特征图金字塔目标预测网络,从多个尺度上独立预测目标,补充了更多细节特征,有利于增强小尺度目标的检测能力。然而,多尺度特征图复用会导致计算负担的显著增加,为了抵消高分辨率特征图带来的这一不利影响,本文提出了一种新的锚框(anchor box)生成策略,在选择锚点时,不再逐点遍历特征图,而是通过感知背景排除平坦背景区域,让锚点尽量集中在目标区域附近。为了感知背景,在不同尺度特征图之间通过注意力模块构建了目标显著性子网络,由此产生的显著性特征具有抑制背景、突出局部目标特性的能力,在此基础上通过对显著系数进行二值化和局部均值判定就可以生成锚框掩膜,从而达到排除平坦背景区域,减少冗余锚框的目的。

2、现存不足之处

基于深度卷积神经网络的目标检测方法虽然取得了巨大进步,但仍存在一些不足:

  1. 为了获取图像全局信息、增加感受野(receptive field),网络中存在较大步幅的下采样操作,导致小尺度目标的检测性能受限制;
  2. 为了提高小尺度目标的检测能力、补充细节特征,常采用多特征层复用或特征金字塔的形式融合多尺度卷积特征,但这势必会造成计算量的大幅增加。
  3. 同时,发现在Caltech和U-FOV等行人数据集中,都存在较多的道路区域,这些区域的相似性都较高,呈现为平坦背景,属于冗余信息。

3、网络结构

在这里插入图片描述 图 1 图1 1
整体网络结构如图1所示,包含主干特征提取网络显著性生成子网络锚框掩膜生成子网络目标预测子网络4部分。

  • 主干特征提取网络源自YOLOv3中的Darknet53,用于提取图像的深度卷积特征,为后续目标分类和回归提供特征。
  • 为了粗略区分图像的前景和背景区域,本文设计了一个显著性生成子网络,依靠注意力模块对于图像局部特征的敏感性产生显著性特征,该特征具有突出特定任务目标、抑制背景的能力,将其叠加到深度卷积特征中,能在一定程度上弥补小尺度目标特征缺失的问题。
  • 针对平坦背景区域显著性系数值较小的特性,构建了一个锚框掩膜生成子网络,在已获取显著性系数的基础上,对其进行二值化及局部领域均值判定处理,从而得到能剔除平坦背景的锚框掩膜,掩膜中为0位置上不产生锚点,可以大大缓解低层高分辨率特征图上预测目标的计算负担。

优点:

  1. 从4个不同尺度特征图上构建目标预测网络,有效补充了小尺度目标特征信息;
  2. 将注意力模块搭建在特征金字塔的横向通路上,构建了一个十分轻量的显著性特征提取子网络,对图像局部特征进行增强,有利于提高目标检测性能;
  3. 利用显著性系数生成的掩膜对特征图进行筛选,排除平坦背景区域,仅在图像的有效区域产生锚框预测目标,可以提高目标检测的执行效率。

4、目标预测子网络

需要进一步增大可用于预测目标的特征图分辨率。基于这一考虑,本文重新设计了目标检测网络,增加了一组更低层高分辨率的特征图预测目标,并将其融入到特征金字塔结构中,形成了四尺度的目标预测网络,可以进一步提高小尺度目标的检测精度。训练时,将y 1 ∼ y 4 的预测结果送入损失层中计算损失 ,指导网络参数调整;检测时,直接在 y 1 ∼ y 4 上独立预测目标,得到并整合四个尺度上的检测结果,实现优势互补。

5、显著性生成子网络

显著性生成子网络有两个功能:

  1. 生成显著性特征;
  2. 建立不同尺度特征图之间的横向连接,实现特征融合。

在这里插入图片描述 图 2 : 注 意 力 模 块 结 构 图2:注意力模块结构 2

显著性特征由注意力模块在两组相邻不同尺度特征图间构造产生,其结构如图2所示。对于两路输入 x 1 x_1 x1 x 2 x_2 x2 ,首先经过1×1卷积调整成相同通道数,并对低分辨率的特征图 x 1 x_1 x1进行2倍上采样,将其转换成与 x 2 x_2 x2通道数相同、分辨率相同的粗略特征图(coarse feature maps)。然后将两路特征图按元素位相加的方式融合,并经激活函数激活后输出。Flatten层将多维输入压平成1维形式,转换成sigmoid需要的输入形式,便于计算显著性系数。最后将介于0~1之间的显著性系数重新网格化为与输入 x 2 x_2 x2分辨率相同的系数图,并将之与 x 2 x_2 x2按元素位的方式相乘,生成具有特定局部区域显著特征的特征图。

在这里插入图片描述 图 3 : 显 著 性 特 征 与 卷 积 特 征 融 合 方 法 图3:显著性特征与卷积特征融合方法 3
图3给出了特征图横向连接及特征融合方法,其中 α 是显著性系数,度量了两组不同尺度特征图之间的相似性,当相似性较高时,即前后不同尺度特征图之间目标继承性较好时,对应区域的显著性系数较大,反之,则显著性系数较小。显著系数图与特征图相乘的过程可视为图像各成分权重重新分配的过程,可以突出重点区域、抑制平坦背景。将生成的显著特征与卷积特征进行拼接,能引导目标预测网络更加关注包含目标的前景区域,有效弥补红外图像特征缺失的问题。该特征融合结构类似于残差结构,输出端: y = α ⋅ x + x y = α · x + x y=αx+x ,即使显著性特征即使不起作用,也能保证有普通卷积特征可利用。

6、锚框掩膜生成子网络

利用深度卷积网络预测目标时,依赖锚框确定候选目标区域。在已有的检测网络结构中,主要采用遍历特征图的方式生成锚点,然而在引入低层高分辨特征图提高小尺度目标的检测性能时,这种遍历的方式会造成计算负担的大幅增加。

在这里插入图片描述 图 4 : 锚 框 掩 膜 生 成 过 程 图4:锚框掩膜生成过程 4

针对这一问题,设计了一个锚框掩膜生成子网络,用于排除平坦背景区域,减少冗余锚框生成数量。利用了上一节中的显著性系数 α 在背景相似性较高区域数值较小的特性,可以在生成锚框时直接排除掉一些不包含目标的平坦背景区域。具体实现如图4所示,锚框掩膜生成子网络通过二值化显著性系数图与局部邻域均值判定产生锚框掩膜。在二值化时,遍历并判定系数图上各像素点的值 img(i, j)是否小于设定的阈值 T ,如式(1)所示,i, j表示像素坐标
i m g ( i , j ) = 0 i m g ( i , j ) < T i m g ( i , j ) = 1 i m g ( i , j ) ≥ T } ( 1 ) \left. \begin{array}{rcl} img(i,j)=0\quad img(i,j)<T \\img(i,j)=1\quad img(i,j)\ge T \end{array}\right\} \qquad (1) img(i,j)=0img(i,j)<Timg(i,j)=1img(i,j)T}(1)
在得到二值化系数图后为了排除某些孤立像素点的影响,计算了0区域内的每个像素点的局部邻域均值,当局部均值大于阈值 T m T_m Tm 时,说明该点邻域内0点较少、非0点较多,可能是目标的边缘区域,为了防止影响检测性能,则将该点像素值置为1,否则保持为0,其判定依据如式(2)所示
m a s k _ a n c h o r ( i , j ) = 0 , m e a n ( i m g [ i − 1 : i + 1 : j − 1 : j + 1 ] ) < T m & i m g ( i , j ) = 0 m a s k _ a n c h o r ( i , j ) = 1 , 其 他 } ( 2 ) \left. \begin{array}{rcl} mask\_anchor(i,j)=0, \\mean(img[i-1:i+1:j-1:j+1])<T_m \& img(i,j)=0\\mask\_anchor(i,j)=1,其他 \end{array}\right\} \qquad (2) mask_anchor(i,j)=0,mean(img[i1:i+1:j1:j+1])<Tm&img(i,j)=0mask_anchor(i,j)=1,(2)
得到锚框掩膜后,将其与特征图进行按位相乘的运算,那么特征图上对应掩膜为0的区域则是背景,在该位置上不产生锚框;对应掩膜为1的区域则是可能存在目标的区域。例如图4©中白色区域表示值为1,黑色区域值为0,那么仅在白色区域确定锚点,产生目标候选边框,忽略黑色区域,可以达到缩减冗余边框、提高执行效率的目的,同时保证目标检测性能。
在这里插入图片描述 图 5 : 不 同 输 入 图 像 的 锚 框 掩 膜 图5:不同输入图像的锚框掩膜 5
图5是生成锚框掩膜各阶段的处理结果及其对应于原图像中的位置。输入图像经显著性生成子网络处理后生成的显著性系数对应图中的第2列的salient maps。显著性系数图有两个作用:

  1. 直接与深度卷积特征相乘得到显著性特征;
  2. 用于生成锚框掩膜,减少预测边框数量。

将介于0~1之间的显著性系数图展开到了0~255之间,二值化阈值设 为 T = 100 / 255 ≈ 0.39 T=100/255≈0.39 T=100/2550.39 ; 局部均值判定阈值为 T m = 2 / 9 T_m = 2/9 Tm=2/9 ,局部均值判定阈值的大小约束了局部邻域非0点的数量,此阈值设定下容许局部8邻域内最多存在两个非0点。

对比图5最后一列结果可知,生成的锚框掩膜对于不同尺度的红外行人目标都具有很好的敏感性,能有效抑制图像中的平坦背景且不会对前景目标造成影响。第4列和第6列结果是由对应的二值化掩膜和锚框掩膜按比例放大后与输入图像按位相乘得到的,横向对比这两列可知,局部均值处理过程能约束掩膜边缘,排除局部孤立区域的干扰。注意到掩膜对于小目标保留较好,但可能会覆盖一些大尺度行人目标的局部边缘,这对检测性能造成影响却不大,有两方面原因:

  1. 大尺度目标的检测性能主要依赖于最后一层的卷积特征,这一层特征图分辨率小,不需要对其锚点进行削减,因此不存在掩膜干扰的问题;
  2. 大尺度目标特征丰富,即使损失部分目标边缘细节,也能保证目标的检测性能。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值