ITSA,Information-Theoretic Shortcut Avoidance
立体匹配的用途:AR、机器人、自动驾驶
名称:《ITSA: An Information-Theoretic Approach to Automatic Shortcut Avoidance and Domain Generalization in Stereo Matching Networks》
位置:https://arxiv.org/abs/2201.02263
代码:https://anonymous.4open.science/r/ITSA-D281
要点:
- 介绍了一个发现:Avoiding Shortcut Learning 的特征,可以增强立体匹配网络跨越合成与现实的泛化能力与鲁棒性
- 一种新的损失函数:基于IB理论,最小化 Fisher 信息,无需计算二阶导数
- 用实验证明,该方法也可以用于 语义分割 等不基于几何的视觉任务
-
背景: 端到端的立体匹配网络,缺乏数据。
现行方案:在合成的数据上训练,然后在实际网络上微调。 -
问题:
- 左右图之间存在的连续局部统计信息,如 RGB 颜色特征等;
- 对参考立体视点上局部色度特征的过度依赖,如 颜色、光照、纹理。
-
目标: 可以不经过微调,就能实现从合成数据(pretrain)到现实数据(test)之间的迁移。
-
原理:
- 基于 Information Bottleneck(IB),优化下面的目标。
arg max θ I ( Y , Z ; θ ) − β I ( X , Z ; θ ) \argmax_\theta I(Y,Z;\theta)-\beta I(X,Z;\theta) θargmaxI(Y,Z;θ)−βI(X,Z;θ)
Z 是输入 X 的 encoding ,Y 是目标,I 是互信息, β \beta β 是控制 IB 大小的超参数。
- ITSA = 任务损失 + Fisher信息损失 + 扰动技术,其中抖动技术用于优化 Fisher 信息损失。
- Avoiding Shortcut Learning 可以强化立体匹配网络的健壮性,增强跨领域能力的泛化性。
实现 Avoiding Shortcut Learning 的相关技术:与 Shortcut 相关的先验知识、数据增强、白化、基于 Dropout 的 Regularization。
- 基于 Information Bottleneck(IB),优化下面的目标。
-
方法:
I
B
IB
IB 常用于压缩特征,所以这里基于
I
B
IB
IB 的理论来遏制与 Shortcut 相关的特征信息。
损失函数:
L
=
L
s
m
o
o
t
h
L
1
(
y
^
,
y
)
+
λ
2
(
L
F
I
(
z
l
,
z
l
∗
)
+
L
F
I
(
z
r
,
z
r
∗
)
)
\mathcal{L}=\mathcal{L}_{smooth_{L1}}(\hat{y},y)+\frac{\lambda}{2}(\mathcal{L}_{FI}(z_l,z_l^*)+\mathcal{L}_{FI}(z_r,z_r^*))
L=LsmoothL1(y^,y)+2λ(LFI(zl,zl∗)+LFI(zr,zr∗))
其中,
{
L
F
I
=
Σ
i
=
1
n
∣
∣
z
(
i
)
−
z
∗
(
i
)
∣
∣
2
z
=
f
θ
(
x
)
z
∗
=
f
θ
(
x
∗
)
x
∗
=
x
+
ϵ
u
ϵ
>
0
∣
∣
u
∣
∣
=
1
\begin{cases} \mathcal{L}_{FI}=\Sigma_{i=1}^n ||z^{(i)}-z^{*(i)}||_2\\ z=f_\theta(x) \\ z^*=f_\theta(x^*) \\ x^*=x+\epsilon u \\ \epsilon>0 \\ ||u||=1 \end{cases}
⎩
⎨
⎧LFI=Σi=1n∣∣z(i)−z∗(i)∣∣2z=fθ(x)z∗=fθ(x∗)x∗=x+ϵuϵ>0∣∣u∣∣=1
F I FI FI 中用到了 p = 1 p=1 p=1 的 Wasserstein 距离。
原文中有其逻辑推导。
参考:【数学】Wasserstein Distance
SCP(Shortcut Perturbation):
u
=
Δ
x
z
(
i
)
∣
∣
Δ
x
z
(
i
)
∣
∣
2
u=\frac{\Delta_x z^{(i)}}{||\Delta_x z^{(i)}||_2}
u=∣∣Δxz(i)∣∣2Δxz(i)