Supervised Online Hashing via Hadamard Codebook Learning

Supervised Online Hashing via Hadamard Codebook Learning

2018 MM

Mingbao Lin XiaMen University

概要

首先给每个类标签分配一个合适的高维二进制码,它由Hadamard码随机生成。随后,采用LSH方法根据哈希位来减小该Hadamard码的长度,可以在线适应预定义的二进制码,从理论上保证语义相似度。最后考虑了随机数据采集的设置,这使得我们的方法可以通过随机梯度下降(SGD)在线高效地学习相应的哈希函数。HCOH可以嵌入监督标签,不限于预先定义的类别编号。

  • 引入从Hadamard矩阵中采样的码字作为不同类别标签的质心,可用于在线学习判别二进制码。
  • 每个码字可以作为虚拟的多标签表示,作为有监督的信息来构建有效的在线学习模型。
  • 为了实现对该方法的有效优化,导出了特定的随机梯度下降(SGD)。

原理

  • ECC设计:
    在编码阶段,编码矩阵(码本)∈{−1,1}r∗×N将一个n类分类问题解耦为r∗个二元分类(双分类)问题。矩阵C的每一列(码字)代表一个类样本,每一行代表一个虚类,在解码阶段,每个原始类可以用一系列虚类来近似。因此认为ECC也可以帮助解决现有的在线哈希问题,其中哈希函数可以被视为一组双分类模型,每fk(xi) = 1表示给定的xi属于第k个虚拟类别,反之亦然。得到:(ci是矩阵C的第i列,J(x)返回x的类标签)
    在这里插入图片描述
    进一步得总体目标函数:
    在这里插入图片描述
    然而,散列位的长度可能与码字的长度不相同,即r不等于r∗,这使得上述式子很难直接优化。为了解决这一问题,进一步使用局部敏感哈希(LSH)对虚拟标签进行变换,以获得相同长度的二进制码来学习哈希函数。由此使用了LSH的进一步变形为:
    在这里插入图片描述
  • 码本C的构建:
    设计原则:
    1)将每行之间的汉明距离最大化,纠错能力强。
    2)将各列之间的汉明距离最大化,保证了分类器之间的显著差异。
    作者使用经典的Hadamard码来构造ECC,它满足上述两个原理。特别是Hadamard是一个n阶正交矩阵,即其行向量和列向量都是成对正交的,其本质上分别满足原理1)和2)。它的各元素要么是+1,要么是−1。即
    在这里插入图片描述
    采用 2 k 2^k 2k阶的Hadamard矩阵,其第i行第j列的项可以定义为:
    在这里插入图片描述
    设置编码长度:|Y|是类标签的数量
    在这里插入图片描述
    因此,构造了方形编码矩阵 C r ∗ Cr∗ Cr∈{−1,1} r ∗ × r ∗ ^{r∗×r∗} r×r。当接收到带有新标签的新数据时,随机且不重复地选择列表示来为该数据构造一个虚拟的多标签向量。否则将给出先前分配给具有相同标签的实例的虚拟标签。将这些向量进一步聚合,构造编码矩阵C。因此不需要预先定义数据集的类别数量。
  • 学习公式
    哈希函数为:
    在这里插入图片描述
    由于sgn函数不能直接优化,所以进行松弛操作:
    在这里插入图片描述
    因此原目标函数变为:
    在这里插入图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值