CV——day86 HAR-Net: 基于混合注意的联合学习单阶段目标检测

I. INTRODUCTION

image-20230319112834673

基于混合注意的单级目标检测综述。混合注意有三个组成部分

a) 在金字塔结构中,交叉层次特征对齐采用对齐注意力

b) 为实现多尺度特征的调整和选择,引入了通道注意力

c) 利用空间注意力软定位感兴趣的区域和部位进行检测。

II. RELATED WORK

A. Object Detection

相比之下,多级检测器采用RPN消除了大量候选点,从而缓解了前景/背景的不平衡。然后加入ROI-Pooling层,提取尺度平移不变特征,进行有效的分类和回归。因此,它们设计复杂,效率低。相比之下,单级探测器在设计和训练上更简单,效率更高。基于网格的YOLO和SSD探测器速度较快,但检测精度较多级探测器低。严重的分类不平衡问题和不精确的特征表示是影响检测精度的主要障碍。在这项工作中,我们试图解决两个主要问题的注意机制和促进单阶段检测。

B. Attention for Visual Recognition

由于注意机制在知觉和认知中的重要性,人们对其自然基础进行了广泛的研究。

一般来说,注意机制的目标是在固定的位置上选择被关注的位置或重要特征表示。将视觉注意与前馈网络结构相结合,以端到端的训练方式进行图像分类和检索。

SE- nets中的Squeeze-and-Excitation(SE)块可以看作是通道注意机制,它为卷积层的不同通道分配学习到的权值,并以通道方式自适应地重新校准特征响应图,以提高视觉识别性能。

III. HYBRID ATTENTION

深度CNN通过对空间信息和通道信息进行统一提取和融合,输出层次特征。我们提出的注意力机制主要关注三种类型 spatial attention, channel attention and aligned attention.

A. Spatial Attention

对象检测的空间注意力可以被视为控制门控,以过滤不太重要的背景区域。对于多级对象检测器,RPN 可被视为对预选区域的硬空间关注,但它可能会导致检测缺失,对于单阶段检测,我们设计了软空间注意力,以使用学习概率掩码对特征的点进行加权。在图像分类中应用自下而上自上而下的结构和顺序下采样/上采样的空间注意力。

image-20230319121749586

我们的空间注意力模块由堆叠扩张卷积的对称组织构成,如图 2 所示。具有不同膨胀速率的卷积层按顺序堆叠。简单地说,扩张卷积的通道数设置为相同,除了最后一个卷积层,通常D=16 .

B. Channel Attention

image-20230319122334740

金字塔共享渠道关注。中间卷积层的通道注意力建模为L2 组规范化和附加特征缩放。我们在最后一次卷积之后添加一个挤压激励(SE)模块,以通过全局信息了解通道重要性。在金字塔结构中,特征缩放参数在多级特征表示之间共享,以促进信息流。

C. Aligned Attention

image-20230319122347318

对齐注意力模块。该模块由3×3 用于特征对齐的可变形卷积,附有1×1 通道组织的卷积。

D. Hybrid Attention and Joint Learning

我们进一步将上述注意力模块整合在一起,共同学习混合注意力机制。来自骨干网络的特征图Cx 首先转换与一致的注意力以生成C′x .然后,添加几个具有基于CLGN的通道注意力的卷积层,以基于对齐的特征产生增强的特征。

IV. 用于对象检测的网络架构

A. Retina-Net Baseline

我们使用单阶段FPN-Retina-Net 作为基线,这是一个完全卷积的网络,具有用于对象检测的特征金字塔。对于具有固定分辨率的图像,基于骨干网络提取多级特征。然后,构建具有自上而下的路径和横向连接的特征金字塔。特征响应映射的任一级别的每个点对应于具有预定义位置的多个定位点。

B. HAR-Net: Hybrid Attention-Based Retina-Net

如上所述,混合注意力机制可以很容易地嵌入到CNN中。我们将三种类型的注意力模块插入单级视网膜网络以进行物体检测。修改后的网络被命名为HAR-Net,它是基于混合注意力的Retina-Net的缩写。整个网络如图 5 所示。

image-20230319122854721

HAR网络概述。基于FPN-视网膜网络,我们依次嵌入了对齐的注意力、通道注意力和空间注意力,以实现混合注意力。HAR-Net可以利用多种视觉注意力机制进行有效的single-stage目标检测。

3) Multi-Scale Testing:

在single-stage探测器中,例如Retina-Net,锚点设计在多个离散尺度上。与Retina-Net一样,HAR-Net具有5个尺度的锚点,专注于25到 210像素。但是,从不同尺度检测物体是不够的。在此激励下,我们开发了单级探测器的多尺度测试。通过训练有素的网络,我们选择两个秤2× 分辨率变化,并获得两个尺度上具有概率/箱回归值的输出图。如图6所示,两个比例的输出图共享4个比例的分辨率。因此,我们对输出概率和回归值求平均值,以预测最终检测结果。

image-20230319123117511

多尺度测试2× 分辨率更改。如果锚点分布在 5 个比例上,则共享 4 个比例的输出地图。我们将具有相同分辨率的输出地图合并,以便更好地预测。

V. 实验结果

A. Spatial Attention

我们还在图 7 中展示了具有空间注意力的焦点区域的可视化。从图中可以看出,空间注意力为有对象的前景区域分配了更高的权重。

image-20230319123226534

空间注意力图的可视化。红色表示较高的注意力权重,蓝色表示较低的注意力权重。其他颜色表示中等注意力权重。

VI. Conclusion

在本文中,我们利用视觉注意机制进行单阶段目标检测,特别是基于FPN的检测。提出三种类型的注意力模块,并依次集成到目标检测网络中。通过对称扩张卷积学习空间注意力,以求软区域建议,以缓解分类不平衡。通过CLGN和CLSE学习信道注意力,以便有效地选择特征。通过金字塔构造中用于特征对齐的独立变形模块学习对齐注意力。我们将三个注意力模块结合起来,提出了用于单阶段目标检测的混合注意力机制。HAR-Net是通过将混合注意力机制集成到视网膜网络中来提出的。此外,我们还开发了单级探测器的多尺度测试。实验证明了混合注意力和HAR-Net的有效性。未来,我们希望结合高效的多尺度训练技术,开发自适应尺度选择,以进一步提高单阶段目标检测性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值