写在前面
FeatUp从任意图像特征中进行上采样,给现有的语义信息中增加空间分辨率。可学习的高分特征可以作为图片的隐式网络或者通用的上采样操作,而这种操作就是一个即插即用的模块,用于改善下游的密集型预测任务。
动机
在图像这类的密集型预测任务中,利用不同的Backbone生成各种高维空间特征,进行分类和预测,这种高度抽象的高维特征往往牺牲了大量的具有有用语义信息的空间分辨率。所以作者是想把这些具有语义信息的空间分辨率在高维特征中进行添加或者重建。
贡献
- 提出可显著提升模型特征空间分辨率的FeatUp方法,参数化为上采样的前馈网络或者说是一种隐式网络
- 由CUDA实现的双边联合上采样,允许在大模型中进行上采样
- FeatUp特征可以作为普通特征的即插即用的替代品,提高在密集型任务中的效果
方法
上采样
引入两种可学习的Upsampler,显式的比较简单,直接用
torch.nn.Parameter()
隐式的相对复杂,如图所示,使用了多层全连接网络
下采样
作者使用了两种下采样器,左边是使用简单的可学习模糊核的下采样器,右边是使用了注意力机制的下采样器,这种具有更好的非线性和动态的感受野。
具体操作如下
损失函数
rec-loss
L
r
e
c
=
1
∣
T
∣
Σ
t
∈
T
1
2
s
2
∣
∣
f
(
t
(
x
)
)
−
σ
↓
(
t
(
F
h
r
)
)
∣
∣
2
2
+
l
o
g
(
s
)
L_{rec} = \frac{1}{|T|} \underset{t \in T}{\Sigma} \frac{1}{2s^2}|| f(t(x)) - \sigma_{\downarrow}(t(F_{hr})) ||^2_2 + log(s)
Lrec=∣T∣1t∈TΣ2s21∣∣f(t(x))−σ↓(t(Fhr))∣∣22+log(s)
这是多视野重建的损失
mag-loss
L
m
a
g
=
Σ
i
,
j
(
(
∣
∣
F
h
r
[
i
,
j
]
∣
∣
−
∣
∣
F
h
r
[
i
−
1
,
j
]
∣
∣
)
2
+
(
∣
∣
F
h
r
[
i
,
j
]
∣
∣
−
∣
∣
F
h
r
[
i
,
j
−
1
]
∣
∣
)
2
)
L_{mag} = \underset{i,j}{\Sigma}\bigg((||F_{hr}[i, j]|| - ||F_{hr}[i-1,j]||)^2 + (||F_{hr}[i,j]|| - ||F_{hr}[i, j-1]||)^2\bigg)
Lmag=i,jΣ((∣∣Fhr[i,j]∣∣−∣∣Fhr[i−1,j]∣∣)2+(∣∣Fhr[i,j]∣∣−∣∣Fhr[i,j−1]∣∣)2)
这个损失是用来避免高分特征中产生的噪音的
具体代码结构
这里很细的,仔细看
受到清晰度限制,点击下载无损SVG格式。