TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

本文链接：https://blog.csdn.net/m0_59235245/article/details/142831081

论文链接：

https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10384354

代码链接：

https://github.com/Chaoscendence/MarrNet

简介

常见的缩小模态差异的方法包括减少不同模态表示的分布差异、学习难以区分的表示或显式模态转移。前两种方法在消除模态特有变化的同时会丧失判别信息，而第三种方法严重依赖于成功的模态转移，当显式模态转移不可能或困难时，性能可能会急剧下降。为了解决这个问题，作者提出了一种紧凑的编码器-解码器神经模块（cmUNet），以在保留身份相关信息的同时学习模态无关表示。这是通过跨模态变换和模态内重建实现的，并通过对抗性/感知损失来增强，该损失鼓励在原始样本空间中表示的不可区分性。为了跨模态匹配，作者又提出了MarrNet，其中cmUNet连接到标准特征提取网络，后者以模态无关表示作为输入并输出匹配的相似度分数。实验表明，MarrNet在对抗伪装和遮挡方面表现出卓越的鲁棒性，并且在与现有方法的比较中表现出显著优势（超过10%）。且所提出的cmUNet是一种元方法，可以作为各种应用的构建模块。

研究动机

（1）目前流行的学习表示（元）方法包括使用最大平均差异（MMD）和 Wasserstein 损失等距离来减少两种模态之间表示的分布差异。然而，这些损失/约束直接应用于学习的特征，并迫使相应的分布接近。从而导致，不仅模态相关信息被删除，而且判别信息也可能被损坏。

（2）跨模态人脸识别的常见方法受益于生成模型，但这些方法存在一些局限性：首先，域转移或联合建模本身具有挑战性，通常需要大量训练数据（例如大型人脸数据集 MSCeleb-1M）。这限制了这些方法在小数据应用中的使用。其次，图像生成（一对一翻译）是计算密集型的，对于识别来说基本上是不必要的，因为生成的图像随后用于学习没有领域/模态信息或偏差的语义表示。那么是否有可能用单个紧凑的神经模块替换这种复杂的域转移和表示学习流程呢？作者在文中给出了回应。

论文贡献

（1）提出跨模态编码器-解码器模块（cmUNet）来学习模态无关的表示，该模块执行跨模态变换和模态内重建，以删除模态特定信息，同时保留身份相关的判别特征。 cmUNet 是一种元方法，可用于截然不同的任务。

（2）对于跨模态匹配，提出了 MarrNet，其中 cmUNet 连接到标准特征提取网络，该网络将模态不可知的表示作为输入，并输出用于匹配的相似性分数。

（3）提出**“薄冰假设”（“thin-ice hypothesis“）** 来描述发现，即由于无法处理模态间隙，跨模态匹配方法可能会产生偏差，无法从部分甚至不相关的区域中提取判别信息，从而导致泛化能力较差。

（4）提出了一个新问题拉曼红外光谱匹配，并创建了一个数据集 cmRRUFF，该数据集可用作跨模态表示学习的基准。

MarrNet：使用跨模态 UNET 学习与模态无关的表示

如果无论原始样本的模态如何，它们在样本空间中的解码都无法区分，那么表示就是模态不可知的。为了学习这种表示，文中设计了一个紧凑的跨模态编码器解码器神经模块cmUNet，它执行跨模态和模内重建，如图 2© 所示。添加特定于模态的判别来检查通过不同模态的解码器解码的学习表示的不可区分性。

对于跨模态匹配，只需将 cmUNet 连接到下游特征提取网络以进一步学习判别表示，如图 3 所示。换句话说，cmUNet 的编码器部分获得的模态不可知表示被传递给对同质输入（在特征空间中）进行操作的 Siamese 网络。当使用预训练的backbone时，则将 backbone的前几层复制为编码器，并相应地创建解码器。 backbone的其余部分被视为 Siamese 网络（用于判别特征学习）。所提出的方法被命名为 MarrNet，用于跨模态匹配的模态不可知表示正则化。

Encoders

对应于同一样本的两种模态的两个输入和首先分别由和编码，使得它们的输出和在模态方面不可区分。换句话说，我们期望它们被转换成一个共同的特征空间，在那里它们共享相同的“潜在”模态。这将减轻识别网络（图 3 中的连体网络 S）的负担，以弥合两种模态之间的差距，并专注于学习最终分类的判别信息。

Decoders

通过两个解码器解码特征和，并评估重建样本、和变换后的样本如下所述定性和定量采样、.

Discriminators

在对抗性学习的设置中采用特定于模态的判别器，每个判别器都针对相应的解码器来评估域的保真度。

Loss

与输入模态匹配的解码器的输出使用重建损失进行评估：

使用跨模态变换损失评估通过相反模态的生成器（解码器）生成的输出:

使用模态感知判别器与真实样本进行比较来评估来自解码器的转换样本，产生对抗性损失：

此外，文中使用标准三元组损失来训练 Siamese 网络:

把所有的loss加在一起得到总损失：

Inference

在推理中，解码器和判别器被丢弃。网络输入通过与其模态相对应的编码器，然后馈送到 Siamese 网络进行匹配。

实验结果

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述