立体匹配-ITSA-CVPR2022论文学习笔记

tomeasure

已于 2022-07-31 19:22:01 修改

阅读量3.8k

点赞数

分类专栏： CV 深度学习文章标签： Invalid spec SpecError

于 2022-03-29 00:28:22 首次发布

本文链接：https://blog.csdn.net/qq_29695701/article/details/123810243

版权

深度学习同时被 2 个专栏收录

45 篇文章 3 订阅

订阅专栏

24 篇文章 2 订阅

订阅专栏

ITSA，Information-Theoretic Shortcut Avoidance
立体匹配的用途：AR、机器人、自动驾驶
名称：《ITSA: An Information-Theoretic Approach to Automatic Shortcut Avoidance and Domain Generalization in Stereo Matching Networks》
位置：https://arxiv.org/abs/2201.02263
代码：https://anonymous.4open.science/r/ITSA-D281
要点：

介绍了一个发现：Avoiding Shortcut Learning 的特征，可以增强立体匹配网络跨越合成与现实的泛化能力与鲁棒性
一种新的损失函数：基于IB理论，最小化 Fisher 信息，无需计算二阶导数
用实验证明，该方法也可以用于 语义分割 等不基于几何的视觉任务

背景：端到端的立体匹配网络，缺乏数据。
现行方案：在合成的数据上训练，然后在实际网络上微调。
问题：

左右图之间存在的连续局部统计信息，如 RGB 颜色特征等；
对参考立体视点上局部色度特征的过度依赖，如颜色、光照、纹理。

目标：可以不经过微调，就能实现从合成数据(pretrain)到现实数据(test)之间的迁移。
原理:
- 基于 Information Bottleneck（IB），优化下面的目标。
  $\argmax_\theta I(Y,Z;\theta)-\beta I(X,Z;\theta)$
Z 是输入 X 的 encoding ，Y 是目标，I 是互信息， $\beta$ 是控制 IB 大小的超参数。
- ITSA = 任务损失 + Fisher信息损失 + 扰动技术，其中抖动技术用于优化 Fisher 信息损失。
- Avoiding Shortcut Learning 可以强化立体匹配网络的健壮性，增强跨领域能力的泛化性。
  
  实现 Avoiding Shortcut Learning 的相关技术：与 Shortcut 相关的先验知识、数据增强、白化、基于 Dropout 的 Regularization。
方法：

$I B$ 常用于压缩特征，所以这里基于 $I B$ 的理论来遏制与 Shortcut 相关的特征信息。
损失函数：
$\mathcal{L}=\mathcal{L}_{smooth_{L1}}(\hat{y},y)+\frac{\lambda}{2}(\mathcal{L}_{FI}(z_l,z_l^*)+\mathcal{L}_{FI}(z_r,z_r^*))$
其中，
$\begin{cases} \mathcal{L}_{FI}=\Sigma_{i=1}^n ||z^{(i)}-z^{*(i)}||_2\\ z=f_\theta(x) \\ z^*=f_\theta(x^*) \\ x^*=x+\epsilon u \\ \epsilon>0 \\ ||u||=1 \end{cases}$