本文给出一种集合卷积网络和Transformer的架构。提出的尺度感知调制(Scale-Aware Modulation,SAM)包括两个核心新颖模块,捕捉多尺度特征并扩大感受野的多头混合卷积(Multi-head Mixed Convolution,MHMC)模块与允许信息在不同头之间混合的尺度感知聚合模块(Scale-Aware Aggregation,SAA)。另外提出了进化混合网络(Evolutionary Hybrid Network,EHN),该模块可以有效地模拟随着网络深入从捕捉全局依赖性到全局依赖性的转变。
MHMC模块
多头混合卷积模块通过引入不同核尺寸的卷积捕捉多种尺度的空间特征。此外,MHMC可以使用大卷积核扩大感受野,增强其对长距离依赖建模的能力。MHMC将输入通道划分为N头并使用不同的深度可分离卷积,该设计减少了参数尺寸和参数成本。为了简化设计,本文初始化核尺寸为3x3,并在每个头逐渐增加2。这种设计使得能够仅通过调整头数量调节感受野和多粒度信息范围。MHMC可以描述为:
M
H
M
C
(
X
)
=
C
o
n
c
a
t
(
D
W
k
1
×
k
1
(
x
1
)
,
…
,
D
W
k
n
×
k
n
(
x
n
)
)
MHMC(X)=Concat(DW_{k_{1}\times k_{1}}(x_{1}),\ldots,DW_{k_{n}\times k_{n}}(x_{n}))
MHMC(X)=Concat(DWk1×k1(x1),…,DWkn×kn(xn))
MHMC在浅层阶段可以比单一头更好地捕捉局部信息,同时随着网络深入保持目标的详细和语义信息。
尺度感知聚合
为了增强MHMC中多头之间信息交互,本文引入了一种新的轻量级聚合模块,称为尺度感知聚合(Scale-aware Aggregation,SAA)。SAA包含一个对MHMC产生不同力度特征进行混洗和分组的操作。从每个头选择一个通道构建一个组,之后使用反向瓶颈(Inverse bottleneck)结构执行每个组内的自顶向下特征融合操作,因此增强多尺度特征多样性。一个良好设计的分组策略在仅引入少量计算同时获得期望的聚合结果。定义输入
X
∈
R
H
×
W
×
C
X\in \mathbb{R}^{H\times W\times C}
X∈RH×W×C,
G
r
o
u
p
s
=
C
h
e
a
d
s
Groups=\frac{C}{heads}
Groups=headsC,这意味着组数量与头数量成反比。使用逐点卷积对所有特征进行跨组信息聚合以实现全局信息交叉融合。SAA模块可以描述为:
M
=
W
i
n
t
e
r
(
[
G
1
,
G
2
,
…
,
G
M
]
)
G
i
=
W
i
n
t
r
a
(
[
H
1
i
,
H
2
i
,
…
,
H
N
i
]
)
H
j
i
=
D
W
C
o
n
v
k
j
×
k
j
(
x
j
i
)
∈
R
H
×
W
×
1
\begin{aligned} M&=W_{inter}([G_{1},G_{2},\ldots,G_{M}])\\ G_{i}&=W_{intra}([H_{1}^{i},H_{2}^{i},\ldots,H_{N}^{i}])\\ H_{j}^{i}&=DWConv_{k_{j}\times k_{j}}(x_{j}^{i}) \in \mathbb{R}^{H\times W\times 1}\\ \end{aligned}
MGiHji=Winter([G1,G2,…,GM])=Wintra([H1i,H2i,…,HNi])=DWConvkj×kj(xji)∈RH×W×1
W
i
n
t
e
r
,
W
i
n
t
r
a
W_{inter},W_{intra}
Winter,Wintra是点卷积的权重矩阵。
H
j
H_{j}
Hj表示有深度卷积的第j头。
尺度感知调制
在使用MHMC捕捉多尺度空间特征并将其与SAA聚合后,获得了输出特征图,本文称之为调制器
M
M
M。然后采用这种调制器与标量乘积调制值
V
V
V并计算结果
Z
Z
Z。
Z
=
M
⊙
V
V
=
W
v
X
M
=
S
A
A
(
M
H
M
C
(
W
s
X
)
)
\begin{aligned} Z&=M\odot V\\ V&=W_{v}X\\ M&=SAA(MHMC(W_{s}X)) \end{aligned}
ZVM=M⊙V=WvX=SAA(MHMC(WsX))
W
v
,
W
s
W_{v},W_{s}
Wv,Ws是线性层的权重矩阵。权重根据不同输入动态变化,因此获得自适应自调制。
尺度感知调制Transformer
进化混合网络(Evolutionary Hybrid Network)
本节提出根据网络捕捉范围相关性的变化模式重新分配适当的计算模块,以实现更好的计算性能。本文提出仅使用倒数第二阶段的MSA块减少计算负担。此外为了有效地模拟变换范式,本文针对倒数第二个阶段提出了两种混合堆叠策略:1. 顺序堆叠SAM块和MSA块,描述为: ( S A M × 1 + M S A × 1 ) × N 2 (SAM\times 1+MSA\times 1)\times \frac{N}{2} (SAM×1+MSA×1)×2N,2. 前半段阶段使用SAM块,后半段使用MSA块,描述为: ( S A M × N 2 + M S A × N 2 ) (SAM\times \frac{N}{2}+MSA\times \frac{N}{2}) (SAM×2N+MSA×2N)