解决问题:
现有的方法通常有两个限制 :(1)他们通常单独 或以冗余融合的方 式学习跨模态相似 信息,这可能无法 充分有效地捕捉不 同模态实例之间的 语义相关性。(2) 他们很少考虑无监 督跨模态哈希的采 样和加权方案,导 致哈希码缺乏令人 满意的鉴别能力。
做法:
首先,我们提出了一种新的跨模态联合训练方法,通过构造一 个联合模态相似矩阵来充分保留实例间的跨模态语义相关性。
其次,我们提出了一种无监督跨模态哈希的采 样和加权方案, 称为基于分布的相似性决策和加权(DSDW)
方法,方法通过将语义相似的实例对推近,将语义不相似的实例对分开,从而生成更多有区别的哈希码。
比较:
虽然DJSRH提出 了一种联合语义相似度矩阵来同时集成多模态实例的多模态相似度信息,但由于DJSRH采用的集成方式存在冗余和次优性,因此会涉及到很多不重要的信息。例如,我们可以通过采用图像预处理的特征来构造图像模态相似度矩阵Sv,通过采用文本预处理的特征来构造文本模态相似度矩阵St。在Sv和St中,模内相似性信息被充分保存。然而,DJSRH中的相似度矩阵包含了模态内融合项Sv(Sv)T和St(St)T,它们偏离了融合多个模态相似度信息的目的,并带来了冗余信息。
现有的无监督深度跨模态哈希方法的另一个缺点是,它们直接通过保持汉明空间中连续的预训练特征之间的相关性来生成哈希码,这可能导致哈希码缺乏更好的鉴别能力。实际上,在有监
督设置中,监督信 息由多个标签标注 ,如果两个实例至 少共享一个标签, 则定义相似度信号 sij = 1,否则sij = 0。在无监督设置下 ,相似度信号sij∈ R导致生成的哈希码 与有监督设置相比缺乏更好的区分能 力。例如,一个实例和其他类似实例之间的汉明距离不能比其他不同实例之间的汉明距离大很多。同时,针对基于有监督对的问题,提出了许多改进采样和加权方案的方法,这些方法的重点是将语义相似的实例对拉得更近,将语义不相似的实例对推离,如triplet loss、 lift structure loss、
multi-similarity loss。尽管基于对的采样和加权方案已经成功地用于有监督跨模态哈希学习来学习判别特征表示 和哈希码,但据我 们所知,目前还没 有研究处理无监督 跨模态哈希学习。
方法:
网络:
AlexNet和多层感知作为ImgNet
和TextNet的主干。
AlexNet包含5个卷积层和3个全连接层(fc
v
6
−
fc
v
8 ),ImaNet将最后一层的分类层fcv8替换为一个哈希层fch,fch有K个隐藏单元,输出连续特征Fv。fcv7输出图像特征V。我们将利用V来构造图像模态相似度矩阵Sv。
MLP由两个完全连通的层f ct 1 和f ct 2 (dt
→ 4096→
K)
组成, 生成连续特征Ft 。我们将直接利 用TextNet
的输入 T = {ti}Ni=1其 中ti
∈
Rdt
构造文 本模态相似度矩阵St。
联合模态相似矩阵构造:
利用预训练特征V={vi}来构建图像模态余弦相似度矩阵Sv=,
文本同理。
然后将图像 模态相似度矩 阵Sv和文本模 态相似度矩阵 St融合成统一 的相似度矩阵 ,使不同模态实例之间的语 义关系保持一 致,相互补充 。
为此,我们提出了一个联合模态相似矩阵S来融合交叉模态相似信息。
Sfusion为对称矩阵,可计算为:
计算cos是因为需要拥有一种模态中的两个实例应获得与另一种模态中的其他实例相似的相似关系这种信息
下图两个元素分别表示第i个图像与其他图像之间的相似关系和第j个文本与其他文本的相似关系。
因此,S = {sij }将不同模 态的相似度信息充分地组合在一个统 一的矩阵中,可以充分挖掘两种模态的潜在模态本征性质,并相互补充邻域关系。
基于分布的相似度决策与加权:
定义并分析了无监督对问题的四种相似度:自相似度、相对相似度、相对不相似度和极端不相似度。
为了更好地生成判别哈希码,使相似实例对更接近,不同实例对更远离,我们将利用相似度的特点进一 步细化相似矩阵S。
查询位于SS
区域,
SS
→
RS
→
RD
→
ED
方向表示查询与其他实例的距离增大,相似度按自相似、相对相似、相对不 相似、极端不相似的顺序递减。
在上图(
中间
)
中,我们设置了两个阈值
dr
和
dl
,分别划分
RS
区域和
RD
区域。然后,通过将相应的实例推到更靠 近SS
区域的位置,我们将缩小查询与位于
RS
区域左侧
(d < dr)
的实例之间的距离。同时,我们将增加查询与位于 RD区域右侧的实例之间的距离
(d > dl)
,将相应的实例拉近
ED
区域。通过这种方式,我们将相似的实例推得更近 ,并将不同的实例拉离彼此。现在,我们提出了关键问题:
我们应该把这两个门槛设置在哪里
?
我们应该如何推和拉实例?
从两个数据集上随机选5000个实例对,分析一个epoch内所有批次的S的统计值。发现相似直方图左部分可以拟合为高斯分布,右半部分可以拟合为拉普拉斯分布。拟合结果为右侧四图。虽然相似直方图的左右部分并不是标准的高斯分布,但是仍然可以通过分布估计了解相似度分布,为设置dl和dr提供参考。
然后,用µl
和
σ
l表示左侧高斯分布的均值和标准差,用µr和σ
r
表示右侧拉普拉斯分布。
我们设置了两个相似性阈值,sl和sr。如果实例对的 sij小于sl,我们将把 它看作是语义上极其 不同的一对,使sij通过weight w -可以将 两个实例分开更接近极端不相似smin = min(si,∗)。
然而,如果实例对的sij大于sr,我们将其视为语义相似的对,并通过加权W+使两个实例更接近,从而使sij更接近自相似的
W+随着sij的增加呈指数增长。
W_
随
sij
的减小呈指数增长 。