摘要
现有的跨模态哈希方法都是基于batch的方式学习哈希函数。
现有的一些在线跨模态哈希方法可以解决这个问题。
然而,这些方法存在一个很大的问题:
不能根据新到来的数据更新旧的哈希码。
所以我们提出了我们的方法OCMFH,这个方法有两个好处:
1,OCMFH仅通过新到达的数据点重新训练哈希函数。
2,它生成新数据的哈希码,并通过最新更新的哈希模式更新旧数据的哈希码。
同时,我们也提出了一种去中心化策略,来解决在线哈希学习中均值变动的问题。
相关工作
- 在线哈希方法
基于SGD策略的:OKH OSupH MIHash HCOH
基于Sketch策略的:OSH OSSH FROSH
- 监督在线跨模态检索方法
OLSH FOMH OMMH
缺点:监督信息是很难获得的,并且手动标注会耗费大量的经历。
- 无监督在线跨模态检索方法
目前我们所发现的只有两种(2020年了哦)无监督跨模态检索的方法:
OCMH DMVH
缺点:如果要更新旧数据的哈希码就必须重新生成或者要访问那些旧的数据。
效率不高。
离线矩阵分解方式
OCMFH的前置定义
- 哈希映射
这里的设置为映射之后值的平均值:
由于我们提前对数据进行了去中心化,所以这里的可以视为零向量了。
所以映射可以重新写为:
- 去中心化
为什么要去中心化?
1,原论文中说为了便于学习哈希函数,也就是收敛得更快。
2,其实还有一个用处,在OSH这篇论文中有详细描述:
值得注意的是,零均值归一化步骤将在很大程度上影响哈希算法的性能,也就是会提升精度。
(所以,广泛阅读论文是有用的,因为别的论文中的一个小trick可能就会拯救你的整个实验)。
这里使用的是动态去中心化的策略:
OCMHF的提出与优化
- U1-step
- U2-step
- P1-step
- P2-step
-step
忽略其它无关的变量,损失函数变为以下的形式:
然后求导为0,可以求.
收敛性定理与证明
定理:目标函数是有界的。并且在每次迭代中单调地减少目标函数的值。
证明:首先目标函数肯定非负。
其次目标函数被分为5个子问题,这五个子问题,每一个子问题只对一个
变量进行求导的时候是凸的,所以使得每个子问题最小值的U,V等值就是
当前最优的。所以每次迭代目标函数的值都是降低的。
旧的哈希值的更新
重点就是找到一个合适的等式关系!!!
这里找到的就是
就是第t次迭代生成的U,
是符合第t次规则的V
就是第t-1次迭代生成的U,
是符合第t-1次规则的V.
这样问题就变为下列的损失函数:
求导为0之后得到:
复杂度分析
时间复杂度和空间复杂度都是.