Supervised Online Hashing via Hadamard Codebook Learning

最新推荐文章于 2024-08-28 23:34:13 发布

薛定谔的大胖笨狗

最新推荐文章于 2024-08-28 23:34:13 发布

阅读量364

点赞数

分类专栏：论文研读文章标签：算法

本文链接：https://blog.csdn.net/qq_44357109/article/details/121103081

版权

论文研读专栏收录该内容

11 篇文章

订阅专栏

Supervised Online Hashing via Hadamard Codebook Learning

2018 MM

Mingbao Lin XiaMen University

概要

首先给每个类标签分配一个合适的高维二进制码，它由Hadamard码随机生成。随后，采用LSH方法根据哈希位来减小该Hadamard码的长度，可以在线适应预定义的二进制码，从理论上保证语义相似度。最后考虑了随机数据采集的设置，这使得我们的方法可以通过随机梯度下降(SGD)在线高效地学习相应的哈希函数。HCOH可以嵌入监督标签，不限于预先定义的类别编号。

引入从Hadamard矩阵中采样的码字作为不同类别标签的质心，可用于在线学习判别二进制码。
每个码字可以作为虚拟的多标签表示，作为有监督的信息来构建有效的在线学习模型。
为了实现对该方法的有效优化，导出了特定的随机梯度下降(SGD)。

原理

ECC设计：
在编码阶段，编码矩阵(码本)∈{−1,1}r∗×N将一个n类分类问题解耦为r∗个二元分类(双分类)问题。矩阵C的每一列(码字)代表一个类样本，每一行代表一个虚类，在解码阶段，每个原始类可以用一系列虚类来近似。因此认为ECC也可以帮助解决现有的在线哈希问题，其中哈希函数可以被视为一组双分类模型，每fk(xi) = 1表示给定的xi属于第k个虚拟类别，反之亦然。得到：（ci是矩阵C的第i列，J(x)返回x的类标签）

进一步得总体目标函数：

然而，散列位的长度可能与码字的长度不相同，即r不等于r∗，这使得上述式子很难直接优化。为了解决这一问题，进一步使用局部敏感哈希(LSH)对虚拟标签进行变换，以获得相同长度的二进制码来学习哈希函数。由此使用了LSH的进一步变形为：
码本C的构建：
设计原则：
1)将每行之间的汉明距离最大化，纠错能力强。
2)将各列之间的汉明距离最大化，保证了分类器之间的显著差异。
作者使用经典的Hadamard码来构造ECC，它满足上述两个原理。特别是Hadamard是一个n阶正交矩阵，即其行向量和列向量都是成对正交的，其本质上分别满足原理1)和2)。它的各元素要么是+1，要么是−1。即

采用 $2^k$ 阶的Hadamard矩阵，其第i行第j列的项可以定义为:

设置编码长度：|Y|是类标签的数量

因此，构造了方形编码矩阵 $C r *$ ∈{−1,1} $^{r∗×r∗}$ 。当接收到带有新标签的新数据时，随机且不重复地选择列表示来为该数据构造一个虚拟的多标签向量。否则将给出先前分配给具有相同标签的实例的虚拟标签。将这些向量进一步聚合，构造编码矩阵C。因此不需要预先定义数据集的类别数量。
学习公式
哈希函数为：

由于sgn函数不能直接优化，所以进行松弛操作：

因此原目标函数变为：