1、算法简介
在跨媒体交叉检索领域,一个可行的子空间学习方法是在一个抽象的高层(可以看做是语义层)表示原始数据。以图像和文本为例,通过某种监督学习算法把原始图像空间
I
和文本空间
2、语义匹配SM算法
此处所用的数据和本人另一篇博客“基于CCA的图像文本交叉检索”中的一样,是维基百科公开数据库。对于训练样本,CCA算法并没有利用到训练样本的标签信息,每个“图像—文本”样本对最后一个数字(范围是1—10)表示该样本对应的种类编号,这10个种类代表的是10个人工标定的语义标签,具体的语义内容在文件“categories.list”中,可用记事本查看,具体如下:
art
biology
geography
history
literature
media
music
royalty
sport
warfare
因为训练样本都是从以上10个种类取出的,所以自然而然可以把SM算法中的抽象语义概念的个数
K
取值为10。设两个映射
一个计算后验概率分布的可行算法是多元逻辑斯蒂回归,这样可以生成一个能够用概率解释的线性分类器,逻辑斯蒂回归通过把数据
PV|X(j|x;w)=1Z(x,w)exp(wTjx)
其中
Z(x,w)=∑jexp(wTjx)
是一个归一化常数,
V
是种类标签,
通过上文中的方法可以把10维文本特征和128维图像特征都映射到相同的10维语义子空间,从而计算图像特征和文本特征的相似度,最终实现跨媒体检索。
以上就是SM算法的主要原理和实现方法。
3、语义关联匹配SCM算法
相对于SM算法,SCM算法就是把CCA算法和SM算法进行了简单的组合,即先使用CCA算法把图像特征空间
参考文献:
[1]“基于CCA的图像文本交叉检索”
[2]《A new approach to cross-modal multimedia retrieval》