2023-CVPR-OSAN: A One-Stage Alignment Network to Unify Multimodal Alignment and UDA

最新推荐文章于 2024-07-11 00:10:44 发布

二苏旧局吖

最新推荐文章于 2024-07-11 00:10:44 发布

阅读量810

点赞数 24

文章标签：计算机视觉人工智能机器学习

本文链接：https://blog.csdn.net/qq_37246721/article/details/136194229

版权

一、研究背景
无监督多模态域自适应有两个主要问题：域适应和模态对齐。现有工作通常用独立的两个阶段处理上述问题，因此难以利用域和模态之间的互补信息。

二、研究目标
1.探索域与模态之间的关系；
2.寻找一个共同的域不变、跨模态表示空间来同时对齐域和模态。

三、研究动机
直接使用原始源域、目标域特征进行对抗性学习效果不佳：不同域之间的差距极大，难以学到共有特征
直接进行特征混合会造成信息冗余和震荡。

四、技术路线
在这里插入图片描述

Tensor-based Alignment：提出基于张量的对齐模块(TAL)来探索域和模态之间的关系，同时对齐域和模态，并利用互补信息获得更好的结果。
(1)建立特征对齐模型：
用 $U 、 V$ 对源域、目标域各模态的特征进行映射，将其映射到两个（源、目标）低维子空间；
最大化不同域之间低维特征的相似度；
约束同一模态内低维特征的相似度矩阵为单位阵 $I$ ；
因此，当实现最佳映射时，最大相似度为 $I$ ， $YV = X U$ 。

（2）模型求解：
分解为 $N$ 个可求解的子问题；
Dynamic Domain Generator
提出动态域生成器(DDG)模块，通过自监督的方式混合两个域的共享信息来构建过渡样本。
(1)计算源-目标注意力矩阵 $M_{st}$
(2)根据 $M_{st}$ 选择共性元素 $c$ ，进行融合特征计算

关注