ps:这篇文章应该是A New Approach to Cross-Modal Multimedia Retrieval的扩充
0.Pre-work
- 提出了什么问题:
文本和图像检索是信息检索、计算机视觉和多媒体的一个重要研究课题,而论文此前的跨膜态检索本质上是unimodal的,实现跨模态搜索通常是通过人工annotation,基于此论文提出应该如何建立一个模型,可以联合文本和图像的模态,以达到可以通过查询文本检索图像或者通过查询图像查找文本,并达到一个高的检索精度 - 怎样解决:
论文提出了一种新型的跨膜态检索方法,将文本与图像提取的特征映射到同一个子空间来比较相似性 - 达到的效果:
- 还存在的问题(或后期工作):
1.方法
论文考虑从文本和图像的数据集
D
=
{
D
1
,
D
2
.
.
.
D
∣
D
∣
}
\mathcal{D}=\{D_1,D_2...D_{|D|}\}
D={D1,D2...D∣D∣}中检索信息,其中文本与图像所在的特征空间分别为
T
\mathcal{T}
T和
I
\mathcal{I}
I
由于文本和图像的表示是不一样的,所以二者是没有自然相关性的,也就是说要实现检索就要找到一个两种表示的中间空间,把文本和图像的特征从各自的特征空间映射中间空间
U
T
\mathcal{U^T}
UT和
U
I
\mathcal{U^I}
UI中去,我们假设有可逆映射:
M
I
:
R
I
→
U
I
\mathcal{M_I} : \mathcal{R^I}\rightarrow\mathcal{U^I}
MI:RI→UI
M
T
:
R
T
→
U
T
\mathcal{M_T} : \mathcal{R^T}\rightarrow\mathcal{U^T}
MT:RT→UT
M
:
U
T
→
U
I
\mathcal{M} : \mathcal{U^T}\rightarrow\mathcal{U^I}
M:UT→UI
比如说要查询 T q \mathcal{T_q} Tq,只要找到映射 M T \mathcal{M_T} MT,然后根据映射 M \mathcal{M} M找到图像的映射到的中间空间 U I \mathcal{U_I} UI再根据逆映射 M I − 1 \mathcal{M_I^{-1}} MI−1即可检索出配对的图像;
跨模态检索的主要问题就是如何学习这个中间空间;论文提出了几种方法:
- 其一:学习两个线性投影将 R I \mathcal{R^I} RI和 R T \mathcal{R^T} RT映射到相关的二维子空间 U I \mathcal{U^I} UI和 U T \mathcal{U^T} UT,这样保持了表示的抽象级别(This maintains the level of abstraction of representation 不知道术语是不是这么翻译)
- 其二:学习两个非线性投影将 R I \mathcal{R^I} RI和 R T \mathcal{R^T} RT映射到相关的二维语义子空间 S I \mathcal{S^I} SI和 S T \mathcal{S^T} ST,这增强了表示的语义抽象。
1.1correlation matching(CM)
学习
U
T
\mathcal{U^T}
UT和
U
T
\mathcal{U^T}
UT文本和图像空间中的表示之间的最佳对应关系。 一种方法是依赖子空间学习,这是一个学习框架,它是一些视觉和文本文献中一些非常流行的降维方法的基础,如潜在语义索引(latent semantic indexing)或主成分分析(PCA)。 从计算的角度来看,子空间学习方法通常是有效的,并且易于概念化,实现线性变换。 在这种情况下,图像和文本子空间之间自然距离就是是它们的相关性。 这表明可以采用典型相关分析(CCA)来实现跨模态建模的自然子空间表示。
&emsp:典型相关分析(CCA)是一种类似于PCA的数据分析和降维方法。 虽然PCA仅处理一个数据空间,但CCA是一种跨两个(或更多)空间共同降维的技术,它提供相同数据的异构表示。 假设这两个空间中的表示包含一些联合信息,这些信息在它们之间的相关性中得到了反映。 CCA学习d维子空间
U
T
\mathcal{U^T}
UT和
U
T
\mathcal{U^T}
UT,以最大化两种模态之间的相关性。
如以下公式:
为CCA的优化目标,找到使相关性最大化的映射方向向量
w
i
w_i
wi和
w
t
w_t
wt,每个文本
T
∈
R
T
T \in \mathbb{R^T}
T∈RT 在向量
w
t
w_t
wt的基础上映射到其子空间
p
T
=
P
T
(
T
)
\mathcal{p_T}=\mathcal{P_T}(T)
pT=PT(T),每个图像
I
∈
R
I
I \in \mathbb{R^I}
I∈RI 在向量
w
i
w_i
wi的基础上映射到其子空间
p
I
=
P
I
(
I
)
\mathcal{p_I}=\mathcal{P_I}(I)
pI=PI(I),如下图:
1.2 semantic matching(SM)
1.3 semantic correlation matching(SCM)
结合子空间和语义模型,在这种情况下,首先用CCA来表示最大的相关子空间 U T \mathcal{U^T} UT和 U I \mathcal{U^I} UI,然后在这些子空间中的每一个中学习学习逻辑回归量 L T \mathcal{L^T} LT和 L I \mathcal{L^I} LI,基于在 U I \mathcal{U^I} UI上投影之后的语义映射 π I = L I ( P I ( I ) ) \pi_I= \mathcal{L}_I(\mathcal{P}_I(I)) πI=LI(PI(I))和 π T = L T ( P T ( T ) ) \pi_T= \mathcal{L}_T(\mathcal{P}_T(T)) πT=LT(PT(T)),分别检索最终基于的图像文本距离 D ( I , T ) \mathcal{D}(I,T) D(I,T)。 论文将这种类型的检索称为语义相关匹配。
1.4 text and image representation文本-图像的特征表示
文本表示为LDA特征,图像表示为SIFT特征;
在
I
I
I中,图像表示基于 scale invariant feature transformation(SIFT)。 从训练集中的每个图像中提取一堆SIFT特征。 然后用k均值聚类算法学习视觉词的编码本或词典。 从每个图像提取的SIFT特征是用该编码本或字典量化的矢量,并且图像由该量化产生的SIFT特征直方图表示
Latent Dirichlet Allocaton(LDA)模型LDA是文本语料库的生成模型,其中文本的语义内容或“文本”被概括为混合主题题( mixture of topics.)。 更准确地说,文本被建模为K个主题上的多项分布,每个主题又被建模为单词上的多项分布。 文本Di中的每个单词都是通过从文本特定的主题分布中对主题z进行采样生成的,然后从该主题“多项式”中对单词进行采样。 在T文本中,文档由其主题分配概率分布表示。