Online Enhanced Semantic Hashing: Towards Effective and Efficient Retrieval for Streaming Multi-Modal Data
Xiao-Ming Wu ShanDong University
概要
1.研究了在线多模态哈希,并定义了一个问题设置来更好地组织这个研究课题。提出的任务更具挑战性和实用性。
2.提出了一种新的在线多模态哈希算法,并给出了一种高效的离散在线优化算法。为数据生成了一种新的语义增强表示,从而构造了一个语义增强的目标函数。此外,通过设计的表示法可以很好地处理新的类别。
限制
1)多媒体数据以流的方式出现。
2)哈希码学习后保持不变,哈希码长度固定。
3)在更新哈希函数时,可以利用新数据的特征,但不能利用旧数据块的特征。
4)新的(未知的)类别可能会随着新的数据块不断出现。
具体原理
-
经典的哈希公式:
问题:S是O(N^2)的,转换成线性形式:
将相似度矩阵分块,有
由于有类增量的问题,所以 P ⃗ ( t ) T P ~ ( t ) \vec P^{(t)T}\widetilde P^{(t)} P(t)TP (t)由于维度问题不能计算 -
语义增强表示
由于标签名称通常很自然地彼此分离,并包含特定于类别的语义的良好表达式,所以嵌入标签名称。使用word2vec,令f=300,第t轮的类名嵌入表示为
定义语义增强矩阵G:
并把G的每一列单位化以便于求S时计算余弦相似度 -
加强语义的哈希
重新定义相似度矩阵S:
利用增强语义成对相似度的目标函数:
构建哈希码和语义增强表示之间的连系:
-
哈希函数的学习:
-
总目标函数:
优化
方法技术同论文研读(二)
检索
实验
-
三种情形
1.新一轮的数据中不含有新类
2.新一轮数据中有新类也有旧类
3.新一轮数据中只有新类 -
数据集
MIRFlickr:
图像通过VGG网络得到4096维特征
文本是1386维BOW特征
NUS-WIDE:
图像通过VGG网络得到4096维特征
文本是5018维BOW特征 -
测评指标
MAP -
实验结果
1、map
2、训练时间
3、收敛性分析
4、参数敏感性分析