U2Net网络结构
U2Net网络的优势在于:(1)提出 RSU 模块,融合不同尺寸接受野的特征,以捕获更多不同尺度的上下文信息(contextual information).(2)基于 RSU 模块的 池化(pooling) 操作,在不显著增加计算成本的前提下,增加了整个网络结构的深度(depth)。具体网络结构图如下:
U2-Net网络由三部分构成:
• 六级编码器
• 五级解码器
• 与解码器和最后一级编码器相连的显著图融合模型
(Ⅰ)编码器En_1, En_2,En_3和En_4阶段中,分别使用RSU-7,RSU-6,RSU-5,RSU-4的RSU结构。前面的数字如7, 6, 5, 4是RSU的高度L。L通常根据输入特征图的空间分辨率进行配置。在En_5和En_6中,特征图的分辨率相对较低,进一步对这些特征图进行下采样会导致有用上下文的丢失。因此,在RSU-5和RSU-6阶段,使用RSU-4F,其中F表示RSU是一个扩展的版本,其中我们用扩展卷积来代替合并和上采样操作。这意味着RSU-4F的所有中间特征图都与其输入的特征图具有相同的分辨率。
(Ⅱ)解码阶段具有与En_6中对称编码阶段相似的结构。在De_5中,还使用了扩展板的RSU-4F,这与在编码阶段En_5,En_6中使用的类似。每个解码器阶段将来自前一级的上采样特征映射和来自其对称编码器阶段的特征映射的级联作为输入。
(Ⅲ)最后一部分是显著图融合模块,用于生成显著概率图。U2-Net网络首先通过3x3卷积和Sigmoid函数从En_6,De_5,De_4,De_3,De_2和De_1生成6个输出显著概率图
S
s
i
d
e
(
6
)
S_{side}^{(6)}
Sside(6),
S
s
i
d
e
(
5
)
S_{side}^{(5)}
Sside(5),
S
s
i
d
e
(
4
)
S_{side}^{(4)}
Sside(4),
S
s
i
d
e
(
3
)
S_{side}^{(3)}
Sside(3),
S
s
i
d
e
(
2
)
S_{side}^{(2)}
Sside(2),
S
s
i
d
e
(
1
)
S_{side}^{(1)}
Sside(1)。然后,将输出的显著图的逻辑图(卷积输出,Sigmoid函数之前)向上采样至与输入图像大小一致,并通过级联操作相融合,然后通过1x1卷积层和一个Sigmoid函数,以生成最终的显著性概率映射图
S
f
u
s
e
S_{fuse}
Sfuse。
损失函数loss
其中
l
s
i
d
e
(
m
)
(
M
=
6
)
l_{side}^{(m)} (M=6)
lside(m)(M=6)是输出显著图
S
s
i
d
e
(
m
)
S_{side}^{(m)}
Sside(m)的loss,
l
f
u
s
e
l_{fuse}
lfuse是最后的融合输出显著图的loss。
w
s
i
d
e
(
m
)
w_{side}^{(m)}
wside(m)和
w
f
u
s
e
w_{fuse}
wfuse是每个loss项的权重。对于每一项,我们使用标准二进制交叉熵来计算损失:
其中,(r,c)为像素坐标,(H,W)为图像大小:高度和宽度。
P
G
(
r
,
c
)
P_{G(r,c)}
PG(r,c)和
P
S
(
r
,
c
)
P_{S(r,c)}
PS(r,c)分别表示GT像素值和预测的显著概率图。训练过程试图最小化整个损失。测试过程中,我们选择最后融合结果
l
f
u
s
e
l_{fuse}
lfuse作为最终的显著性图。
U2-Net网络的设计允许具有丰富多尺度特性和相对较低的计算和内存成本低深层架构。该结构只建立在RSU块上,没有使用任何特性分类的预训练主干网络,因此是灵活的,可适应不同的工作环境,性能损失很小。
论文名称: U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection
论文地址: https://arxiv.org/pdf/2005.09007.pdf
论文作者:Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane and Martin Jagersand University of Alberta, Canada
Github地址: https://github.com/NathanUA/U-2-Net
参考博客:
https://blog.csdn.net/ling620/article/details/110127019
http://aiuai.cn/aifarm1396.html