论文阅读笔记：On the Role of Correlation and Abstraction in Cross-Modal Multimedia Retrieval

最新推荐文章于 2023-03-10 12:24:10 发布

__main__

最新推荐文章于 2023-03-10 12:24:10 发布

阅读量636

点赞数 1

分类专栏：论文阅读

本文链接：https://blog.csdn.net/baidu_32885165/article/details/95727647

版权

论文阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

ps:这篇文章应该是A New Approach to Cross-Modal Multimedia Retrieval的扩充

0.Pre-work

提出了什么问题：
文本和图像检索是信息检索、计算机视觉和多媒体的一个重要研究课题，而论文此前的跨膜态检索本质上是unimodal的，实现跨模态搜索通常是通过人工annotation，基于此论文提出应该如何建立一个模型，可以联合文本和图像的模态，以达到可以通过查询文本检索图像或者通过查询图像查找文本，并达到一个高的检索精度
怎样解决:
论文提出了一种新型的跨膜态检索方法，将文本与图像提取的特征映射到同一个子空间来比较相似性
达到的效果:
还存在的问题(或后期工作):

1.方法

论文考虑从文本和图像的数据集 $\mathcal{D}=\{D_1,D_2...D_{|D|}\}$ 中检索信息，其中文本与图像所在的特征空间分别为 $\mathcal{T}$ 和 $\mathcal{I}$
由于文本和图像的表示是不一样的，所以二者是没有自然相关性的，也就是说要实现检索就要找到一个两种表示的中间空间，把文本和图像的特征从各自的特征空间映射中间空间 $\mathcal{U^T}$ 和 $\mathcal{U^I}$ 中去，我们假设有可逆映射：
$\mathcal{M_I} : \mathcal{R^I}\rightarrow\mathcal{U^I}$
$\mathcal{M_T} : \mathcal{R^T}\rightarrow\mathcal{U^T}$
$\mathcal{M} : \mathcal{U^T}\rightarrow\mathcal{U^I}$

比如说要查询 $\mathcal{T_q}$ ,只要找到映射 $\mathcal{M_T}$ ，然后根据映射 $\mathcal{M}$ 找到图像的映射到的中间空间 $\mathcal{U_I}$ 再根据逆映射 $\mathcal{M_I^{-1}}$ 即可检索出配对的图像；

跨模态检索的主要问题就是如何学习这个中间空间；论文提出了几种方法：

其一：学习两个线性投影将 $\mathcal{R^I}$ 和 $\mathcal{R^T}$ 映射到相关的二维子空间 $\mathcal{U^I}$ 和 $\mathcal{U^T}$ ，这样保持了表示的抽象级别(This maintains the level of abstraction of representation 不知道术语是不是这么翻译)
其二：学习两个非线性投影将 $\mathcal{R^I}$ 和 $\mathcal{R^T}$ 映射到相关的二维语义子空间 $\mathcal{S^I}$ 和 $\mathcal{S^T}$ ,这增强了表示的语义抽象。

1.1correlation matching(CM)

学习 $\mathcal{U^T}$ 和 $\mathcal{U^T}$ 文本和图像空间中的表示之间的最佳对应关系。一种方法是依赖子空间学习，这是一个学习框架，它是一些视觉和文本文献中一些非常流行的降维方法的基础，如潜在语义索引(latent semantic indexing)或主成分分析(PCA)。从计算的角度来看，子空间学习方法通常是有效的，并且易于概念化，实现线性变换。在这种情况下，图像和文本子空间之间自然距离就是是它们的相关性。这表明可以采用典型相关分析(CCA)来实现跨模态建模的自然子空间表示。
&emsp:典型相关分析(CCA)是一种类似于PCA的数据分析和降维方法。虽然PCA仅处理一个数据空间，但CCA是一种跨两个(或更多)空间共同降维的技术，它提供相同数据的异构表示。假设这两个空间中的表示包含一些联合信息，这些信息在它们之间的相关性中得到了反映。 CCA学习d维子空间 $\mathcal{U^T}$ 和 $\mathcal{U^T}$ ，以最大化两种模态之间的相关性。

如以下公式：
在这里插入图片描述
为CCA的优化目标，找到使相关性最大化的映射方向向量 $w_i$ 和 $w_t$ ，每个文本 $\in \mathbb{R^T}$ 在向量 $w_t$ 的基础上映射到其子空间 $\mathcal{p_T}=\mathcal{P_T}(T)$ ，每个图像 $\in \mathbb{R^I}$ 在向量 $w_i$ 的基础上映射到其子空间 $\mathcal{p_I}=\mathcal{P_I}(I)$ ,如下图：
在这里插入图片描述

1.2 semantic matching(SM)

1.3 semantic correlation matching(SCM)

结合子空间和语义模型，在这种情况下，首先用CCA来表示最大的相关子空间 $\mathcal{U^T}$ 和 $\mathcal{U^I}$ ,然后在这些子空间中的每一个中学习学习逻辑回归量 $\mathcal{L^T}$ 和 $\mathcal{L^I}$ ，基于在 $\mathcal{U^I}$ 上投影之后的语义映射 $\pi_I= \mathcal{L}_I(\mathcal{P}_I(I))$ 和 $\pi_T= \mathcal{L}_T(\mathcal{P}_T(T))$ ，分别检索最终基于的图像文本距离 $\mathcal{D}(I,T)$ 。论文将这种类型的检索称为语义相关匹配。

1.4 text and image representation文本-图像的特征表示

文本表示为LDA特征，图像表示为SIFT特征；
在 $I$ 中，图像表示基于 scale invariant feature transformation(SIFT)。从训练集中的每个图像中提取一堆SIFT特征。然后用k均值聚类算法学习视觉词的编码本或词典。从每个图像提取的SIFT特征是用该编码本或字典量化的矢量，并且图像由该量化产生的SIFT特征直方图表示

Latent Dirichlet Allocaton(LDA)模型LDA是文本语料库的生成模型，其中文本的语义内容或“文本”被概括为混合主题题( mixture of topics.)。更准确地说，文本被建模为K个主题上的多项分布，每个主题又被建模为单词上的多项分布。文本Di中的每个单词都是通过从文本特定的主题分布中对主题z进行采样生成的，然后从该主题“多项式”中对单词进行采样。在T文本中，文档由其主题分配概率分布表示。