MARS: Learning Modality-Agnostic Representation for Scalable Cross-Media Retrieval

最新推荐文章于 2024-07-22 09:59:37 发布

Adv_Ice

最新推荐文章于 2024-07-22 09:59:37 发布

阅读量197

点赞数

文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/Samature/article/details/131139095

版权

创新点

提出了一种模态可扩展的跨媒体检索方法，称为MARS，以缩小不同模态之间的异质性差距，它允许每种模态独立训练。在处理新模态中的数据时，相关的表示模块DataNet在不访问先前模态的情况下实现训练。
MARS认为语义标签作为一个独特的模态，并构造标签解析模块LabNet，以获得其语义表示，这将作为一个桥梁，以关联不同的模态。
模态特定表示模块DataNet被设计成获得模态共享表示和模态排他表示的无偏分类。此外，具有相同分类器的分类项被利用以在所有模态上进行更好的语义对齐。最终获得的模态共享表示将是模态不可知的。
在几个基准多模态数据集上的大量实验表明，我们提出的MARS对最先进的CMR方法显示出更好的结果。

方法

在这里插入图片描述

1)在第一可用模态上的表征学习：它学习LabNet以及第一模态上的相应DataNet。LabNet有助于获得标签中的语义表示。DataNet使得能够获得模态排他表示并排出模态排他表示。
2)新模态的表征学习：MARS使用经过良好训练的LabNet来提取标签中的表示，然后将这种表示作为特权来指导新模态的DataNet训练。此外，一个具有相同的分类器的分类术语被用来更好地语义对齐。

第一模态的学习

为了便于获得模态可扩展的跨媒体检索的模态不可知表示，我们联合训练的LabNet和DataNet获得的第一个模态的表示。由于所有模态中的数据共享类别标签，因此我们将标签信息视为类似日期的模态。它将语义标签Y1作为输入以获得语义表示。则可以表示语义表示fl1
在这里插入图片描述

对于DataNet，DataNet将模态X1的数据作为其输入，并且它首先通过两个完全连接的层以获得潜在的表示Z1，如下所示：
在这里插入图片描述

考虑到并不是所有的信息在个别模态是有益的跨媒体检索。模态信息通常可分为模态专有信息和模态共享信息两部分。模态专有信息描述了每个模态特有的变化因素，并且这样的信息对检索是有害的。模态共享信息描述了跨模态的高层公共语义，这对检索确实有贡献。因此，我们的目标是区别对待的情态排斥信息和情态共享信息，促进获得有用的情态共享表示。
对于模态共享信息的学习，
在这里插入图片描述

对于模态专有信息的学习，
在这里插入图片描述

上述两个表示层的长度也被设置为d维。由于情态排他性表征只属于单个情态，与任何语义范畴无关。模态共享表示应该具有某种语义分类属性的特征。因此，构造线性分类器来区分模态共享表示并约束模态专有表示。分类器的损失函数定义如下：
在这里插入图片描述

其中α1和β1是两个超参数。fs1表示反映模态共享信息的表示。fe1表示反映模态专用信息的表示。上述等式的第一项被设计为经由分类损失来区分模态共享表示。第二项是用于约束模态排他性表示的无偏分类正则化器，其中它最小化模态排他性表示上的估计的最大类别概率。由于这种表示与跨不同模态的共享语义无关，因此不应偏向于任何语义类别。在计算中，采用非负似然函数来实现上述目的。
具体损失函数如下：
在这里插入图片描述

此处的损失函数形式在和dcmh的损失函数一样，用降低非负似然函数来提高损失中二者的相似性，其中第一项代表抽取样本的label和共享信息，第二项代表类别标签导出的representation的相似性，第三项表示成对模态共享表示的相似性
对于第一模态，总的损失函数为J1+J2

新模态的学习

我们利用第一种模式中使用的LabNet和分类术语，优化了新模态中的DataNet。具体地，给定一组训练数据Xm，并且对应的标签矩阵Ym，我们采用学习良好的LabNet来通过前向传播提取类别标签的表示（表示为LabNet（Yim））。相应的DataNet将模态数据作为输入。另外，考虑到当前模态的信息包括模态独占信息和模态共享信息，我们采用与第一模态相同的方式来获得模态独占表征和模态共享表征.接下来，我们通过学习良好的LabNet提取标签中的表示，然后将这种表示作为指导新模态的DataNet训练的特权。优化目标函数如下：
在这里插入图片描述

第一项是labnet对于新模态的标签导出representation与新模态经过datanet后的共享信息的相似度，第二项是模态共享信息的成对相似性的对数似然
同时因为第一模态中国的分类器有语义分类的属性特征，将此分类器应用到新模态的datanet中，可以使得fsm对齐在多模态数据中，优化的目标函数如下：
在这里插入图片描述

新模态的优化目标如下：J1+J2

Adv_Ice

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MARS: Learning Modality-Agnostic Representation for Scalable Cross-Media Retrieval

提出了一种模态可扩展的跨媒体检索方法，称为MARS，以缩小不同模态之间的异质性差距，它允许每种模态独立训练。在处理新模态中的数据时，相关的表示模块DataNet在不访问先前模态的情况下实现训练。MARS认为语义标签作为一个独特的模态，并构造标签解析模块LabNet，以获得其语义表示，这将作为一个桥梁，以关联不同的模态。模态特定表示模块DataNet被设计成获得模态共享表示和模态排他表示的无偏分类。此外，具有相同分类器的分类项被利用以在所有模态上进行更好的语义对齐。
复制链接

扫一扫