ASFF 空间自适应网络 学习笔记 (附代码)

论文地址:https://browse.arxiv.org/pdf/1911.09516.pdf

github:https://gitcode.net/mirrors/ruinmessi/asff?utm_source=csdn_github_accelerator

1.是什么?

ASFF(Adaptive Structure Feature Fusion)网络是一种用于目标检测的神经网络模型。它是基于Faster R-CNN框架的一种改进,旨在提高特征融合的效果,从而改善目标检测的准确性和性能。

ASFF网络引入了自适应结构特征融合模块,用于融合多个不同层次的特征图。传统的目标检测网络通常只使用单一层次的特征图,而ASFF网络通过动态地选择和融合多层特征图,使得网络能够更好地捕捉目标的多尺度信息。

ASFF网络首先通过主干网络提取不同层次的特征图。然后,它使用自适应的注意力机制来对这些特征图进行加权融合,以便更好地保留重要的特征信息。最后,融合后的特征被传递给目标检测头部进行目标分类和定位。

相比传统的目标检测方法,ASFF网络在准确性和性能方面都有所提高。它能够更好地捕捉目标的多尺度信息,从而在目标检测任务中取得更好的效果。

2.为什么?

特征金字塔的一大缺点是不同尺度特征的不一致性,特别是对于一阶段检测器。确切地说,在FPN形式的网络中启发式地选择特征,高层语义信息中检测大目标、低层语义信息中检测小目标。当某个目标在某一层被当做正类时,相应地该目标区域在其它层被当做负类。如果一幅图像中既有大目标也有小目标,那么不同层间的特征的不一致性将会影响最后检测结果(大目标的检测在某一层,小目标的检测在另一层,但是网络的多尺寸检测不会仅仅检测一个特定的区域,而是综合整幅图进行检测。在特征融合时,其它层很多无用的信息也会融合进来)。
 

3.怎么样?
3.1 网络结构图

 ASFF的关键思想是自适应地学习每个尺度特征图的融合空间权重,分为两步:恒等缩放和自适应融合。

3.2恒等缩放、

  1. 对于ASFF-1:对level-3的特征图做3x3MaxPool(stride=2)+3x3Conv(stride=2)得到 X^{3\rightarrow 1} . 对level-2的特征图做3x3Conv(stride=2)得到 X^{2\rightarrow 1}.
  2. 对于ASFF-2:对level-3的特征图做3x3Conv(stride=2)得到X^{3\rightarrow 2}. 对level-1的特征图做1x1Conv,并resize到原图分辨率2倍大小得到X^{1\rightarrow 2}.
  3. 对于ASFF-3:对level-2的特征图做1x1Conv,并resize到原图分辨率2倍大小,得到X^{2\rightarrow 3} 对level-1的特征图做1x1Conv,并resize到原图分辨率4倍大小,得到X^{1\rightarrow 3}
3.3自适应融合

以ASFF-3为例,图中的绿色框描述了如何将特征进行融合,其中X1,X2,X3分别为来自level,level2,level3的特征,与为来自不同层的特征乘上权重参数α3,β3和γ3并相加,就能得到新的融合特征ASFF-3,如下面公式所示:

对于权重参数α,β和γ,则是通过resize后的level1~level3的特征图经过1×1的卷积得到的。并且参数α,β和γ经过concat之后通过softmax使得他们的范围都在[0,1]内并且和为1:
 

 

 3.4 代码实现
class ASFF(nn.Module): 
     def __init__(self, level, rfb=False, vis=False): 
        super(ASFF, self).__init__() 
        self.level = level 
        self.dim = [512, 256, 256] 
        self.inter_dim = self.dim[self.level] 
        # 每个level融合前,需要先调整到一样的尺度
        if level==0: 
            self.stride_level_1 = add_conv(256, self.inter_dim, 3, 2) 
            self.stride_level_2 = add_conv(256, self.inter_dim, 3, 2) 
            self.expand = add_conv(self.inter_dim, 1024, 3, 1) 
        elif level==1: 
            self.compress_level_0 = add_conv(512, self.inter_dim, 1, 1) 
            self.stride_level_2 = add_conv(256, self.inter_dim, 3, 2) 
           self.expand = add_conv(self.inter_dim, 512, 3, 1) 
       elif level==2: 
           self.compress_level_0 = add_conv(512, self.inter_dim, 1, 1) 
           self.expand = add_conv(self.inter_dim, 256, 3, 1) 
       compress_c = 8 if rfb else 16  #when adding rfb, we use half number of channels to save memory 

       self.weight_level_0 = add_conv(self.inter_dim, compress_c, 1, 1) 
       self.weight_level_1 = add_conv(self.inter_dim, compress_c, 1, 1) 
       self.weight_level_2 = add_conv(self.inter_dim, compress_c, 1, 1) 

       self.weight_levels = nn.Conv2d(compress_c*3, 3, kernel_size=1, stride=1, padding=0) 
       self.vis= vis 
       
    def forward(self, x_level_0, x_level_1, x_level_2): 
        if self.level==0: 
           level_0_resized = x_level_0 
           level_1_resized = self.stride_level_1(x_level_1) 
 
           level_2_downsampled_inter =F.max_pool2d(x_level_2, 3, stride=2, padding=1) 
           level_2_resized = self.stride_level_2(level_2_downsampled_inter) 
 
       elif self.level==1: 
           level_0_compressed = self.compress_level_0(x_level_0) 
           level_0_resized =F.interpolate(level_0_compressed, scale_factor=2, mode='nearest') 
           level_1_resized =x_level_1 
           level_2_resized =self.stride_level_2(x_level_2) 
       elif self.level==2: 
           level_0_compressed = self.compress_level_0(x_level_0) 
           level_0_resized =F.interpolate(level_0_compressed, scale_factor=4, mode='nearest') 
           level_1_resized =F.interpolate(x_level_1, scale_factor=2, mode='nearest') 
          level_2_resized =x_level_2 
 
       level_0_weight_v = self.weight_level_0(level_0_resized) 
       level_1_weight_v = self.weight_level_1(level_1_resized) 
       level_2_weight_v = self.weight_level_2(level_2_resized) 
       levels_weight_v = torch.cat((level_0_weight_v, level_1_weight_v, level_2_weight_v),1) 
       # 学习的3个尺度权重
       levels_weight = self.weight_levels(levels_weight_v) 
       levels_weight = F.softmax(levels_weight, dim=1) 
       # 自适应权重融合
       fused_out_reduced = level_0_resized * levels_weight[:,0:1,:,:]+\ 
                           level_1_resized * levels_weight[:,1:2,:,:]+\ 
                           level_2_resized * levels_weight[:,2:,:,:] 
 
       out = self.expand(fused_out_reduced) 
 
       if self.vis: 
           return out, levels_weight, fused_out_reduced.sum(dim=1) 
       else: 
          return out 

参考:【论文笔记】:ASFF:Learning Spatial Fusion for Single-Shot Object Detection

Adaptively Spatial Feature Fusion (ASFF)

FCOS加入ASFF的Attention机制

### ASFF模块介绍 自适应空间特征融合(Adaptive Spatial Feature Fusion, ASFF)是一种用于提升目标检测模型性能的技术。该技术使得网络可以学习如何在不同的特征层次上进行有效的空间过滤,从而仅保留有用的信息进行组合[^4]。 具体来说,在每一层的特征处理过程中,来自其他层的特征会被融合并调整至相同的空间分辨率。随后,通过训练过程来获得最佳的特征融合方式。这种机制允许在同一空间位置上的不同层次特征之间实现自适应融合:一些携带冲突信息的特征将被自动过滤掉;相反,那些具有更强辨别力的特征会占据主导地位。 ### 使用方法 为了定义ASFF模块并将其实现于YOLOv8架构中,以下是具体的实践指南: #### 实现动态特征融合和注意力机制 ```python import torch.nn as nn class ASFF(nn.Module): def __init__(self, level=0, multiplier=1.0): super().__init__() self.level = level # 动态权重计算部分... def forward(self, features_list): # 特征融合逻辑... pass ``` 这段代码展示了`ASFF`类的基本框架,其中包含了初始化函数以及前向传播路径中的核心操作——即接收一个多尺度特征列表作为输入,并返回经过优化后的单个输出张量[^1]。 #### 构建 `ASFFYOLOv8Head` 类 接下来是创建一个新的头部组件(`ASFFYOLOv8Head`),它继承自原始版本的同时引入了上述提到的`ASFF`模块: ```python from yolov8.models.heads import YOLOv8Head class ASFFYOLOv8Head(YOLOv8Head): def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) # 初始化ASFF实例... def forward(self, x): # 首先获取backbone提取出来的多尺度特征图 feats = backbone(x) # 应用ASFF模块来进行跨尺度特征融合 fused_feat = self.asff_module(feats) # 将融合后的特征传递给后续的标准YOLO head结构继续处理 out = super().forward(fused_feat) return out ``` 此段代码说明了如何修改原有的YOLO v8头部设计以支持新的特性融合策略。这里的关键在于利用之前定义好的`ASFF`对象对由骨干网产生的多个尺度下的特征表示进行了增强型聚合。 ### 性能对比 实验结果显示,当采用Yolov3加上改进版的ASFF模块之后,在多种评估指标方面均优于传统的单一阶段(one-stage)和两阶段(two-stage)的目标检测方案[^3]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值