Semantic matching & Semantic correlation matching

最新推荐文章于 2023-02-10 17:30:52 发布

flyingliufan

最新推荐文章于 2023-02-10 17:30:52 发布

阅读量2.2k

点赞数

分类专栏：跨媒体检索图像语义文章标签：语义匹配语义关联匹配交叉检索 semantic

本文链接：https://blog.csdn.net/flyingliufan/article/details/48751789

版权

跨媒体检索同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

图像语义

1 篇文章 0 订阅

订阅专栏

1、算法简介

　　在跨媒体交叉检索领域，一个可行的子空间学习方法是在一个抽象的高层（可以看做是语义层）表示原始数据。以图像和文本为例，通过某种监督学习算法把原始图像空间 $I$ 和文本空间 $T$ 映射到相应的图像语义子空间 $S^I$ 和文本语义子空间 $S^T$ 。两者的语义子空间是由相同的语义概念库模型生成的，假设抽象的高层语义概念共有 $K$ 个，即 $V=\{v_1,...,v_K\}$ ，两个语义子空间特征向量都代表了对应样本（图像或文本）属于各个语义概念的概率，因此 $S^I$ 和 $S^T$ 可以看做是相同的子空间，也就可以在这个子空间进行“图像—文本”之间的交叉检索，这就是SM（Semantic matching，语义匹配）算法。而SCM（Semantic correlation matching，语义相关匹配）算法则是先用CCA算法把 $I$ 和 $T$ 映射到相关子空间，再从相关子空间映射到语义子空间。
　　

2、语义匹配SM算法

　　此处所用的数据和本人另一篇博客“基于CCA的图像文本交叉检索”中的一样，是维基百科公开数据库。对于训练样本，CCA算法并没有利用到训练样本的标签信息，每个“图像—文本”样本对最后一个数字（范围是1—10）表示该样本对应的种类编号，这10个种类代表的是10个人工标定的语义标签，具体的语义内容在文件“categories.list”中，可用记事本查看，具体如下：

art
biology
geography
history
literature
media
music
royalty
sport
warfare

　　因为训练样本都是从以上10个种类取出的，所以自然而然可以把SM算法中的抽象语义概念的个数 $K$ 取值为10。设两个映射 $L_T,L_I$ 分别把文本原始特征（由10主题的LDA模型生成的10维特征）数据和图像原始特征（128维的SIFT特征）数据映射到后验概率分布，即 $x\rightarrow P_{V|X}(v_i|x),i \in \{1,2,...,K\}$ ，在本文中 $K=10$ ，其中x为文本特征 $T$ 或图像特征 $I$ ，而 $P_{V|X}(v_i|x),i \in \{1,2,...,K\}$ 为语义子空间中的 $K$ 维概率分布向量。
　　一个计算后验概率分布的可行算法是多元逻辑斯蒂回归，这样可以生成一个能够用概率解释的线性分类器，逻辑斯蒂回归通过把数据 $x$ 代入如下逻辑斯蒂方程来计算样本 $x$ 属于种类 $j$ 的后验概率，如下式：
　　
　　 $P_{V|X}(j|x;w)=\frac{1}{Z(x,w)}exp(w_j^Tx)$
　　
　　其中 $Z(x,w)=\sum_jexp(w_j^Tx)$ 是一个归一化常数， $V$ 是种类标签， $X$ 是输入空间的特征向量(设为n维，对于维基百科数据库中的图像n=128，对于文本n=10)， $w=\{w_1,w_2,...,w_K\}$ （其中 $w_j$ 为对应种类 $j$ 的n维参数向量，也是逻辑斯蒂回归过程中所要计算的参数）。
　　通过上文中的方法可以把10维文本特征和128维图像特征都映射到相同的10维语义子空间，从而计算图像特征和文本特征的相似度，最终实现跨媒体检索。
　　以上就是SM算法的主要原理和实现方法。

3、语义关联匹配SCM算法

　　相对于SM算法，SCM算法就是把CCA算法和SM算法进行了简单的组合，即先使用CCA算法把图像特征空间 $I$ 和文本特征空间 $T$ 映射到相关的子空间 $I_1$ 和 $T_1$ ，这时只是利用了两个特征空间中的相关信息，并没有利用训练样本中的标签信息。之后再用SM算法把相关子空间 $I_1$ 和 $T_1$ 映射到相同的语义子空间中，之后的处理和SM算法相同。