Cross-modal Center Loss阅读报告

最新推荐文章于 2024-08-05 21:52:42 发布

王师北

最新推荐文章于 2024-08-05 21:52:42 发布

阅读量858

点赞数

分类专栏： ReID行人重识别

本文链接：https://blog.csdn.net/rytyy/article/details/108101268

版权

ReID行人重识别专栏收录该内容

27 篇文章

订阅专栏

本文介绍了一种改进的CenterLoss，旨在提高跨模态检索任务中的特征表示能力。作者针对传统方法在多模态数据上的局限性，提出了一种新的跨模态损失函数，该函数能够更好地学习判别性和模态不变性的特征，适用于两个以上的模态。实验在3D跨模态检索任务上验证了方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章简介：

在这里插入图片描述
文章出处：https://arxiv.org/abs/2008.03561v1。作者单位：纽约市立大学。作者提出了一个在跨模态任务中通用的center loss。

文献动机

跨模态检索的目的是学习来自不同模态数据的判别性和模态不变性的特征。现有的深度学习方法往往会选择将不同模态的信息映射到同一特征空间，从而学习跨模态共享特征。

为了学习到判别性特征，我们需要确保同类数据的特征距离更近，同时异类数据的特征距离更远。在一些研究中，大家常常会利用交叉熵损失（cross entropy loss）和均方误差损失（mean square error）来最大化类间差异。为了比较从不同模态样本的差异，我们则需要提取模态不变性的特征。

作者分析，对于跨模态检索任务当前工作会有一些不足的地方。如下：

1.对于如何提取跨模态特征，传统的手段一般是利用预训练网络来处理来自多模态的样本。例如，在图文跨模态任务中，如果仅使用在Image上预训练的模型，在跨模态任务上既没有训练也没有微调，如此得到的特征则不是最好的特征。所以本文作者认为，在跨模态元数据上进行训练出来的模型，可以获得更好的特征表示。
2.现有工作中的损失函数，大都为了两模态任务。所以很有必要设计一个通用的简单的用于两模态以上的多模态任务。

贡献

1.提出一个cross modal loss用于跨模态共有特征空间。
2.提出一个跨模态检索框架，利用cross modal loss 实现三个模态间的相互检索。

方法

本文提出的跨模态center loss是在传统center loss的基础上的扩充。形式化表示如下：
数据集S中包含N个实体。其中第i个实体ti是一个包含M个模态，且标签为yi的集合。ti中不同模态的样本用si表示。如下式：
在这里插入图片描述
因为，来自不同模态的样本
之间的相似度不可直接度量。那么则需要利用映射函数
(其中
是可学习参数)将它们映射到一个公共的特征空间中，再进行center loss的计算。其目的就是让
更小，让
更大。