双线性函数的紧凑超平面散列(Compact Hyperplane Hashing with Bilinear Functions)阅读笔记

本文介绍了针对超平面搜索问题的新型紧凑双线性超平面散列方法,旨在解决现有随机哈希方法的长哈希码和存储开销问题。该方法基于双线性函数,能生成短而有区分性的哈希码,提高搜索性能。通过将双线性投影引入学习框架,散列函数直接从数据中学习,实现了对超平面搜索的高效处理,适用于支持向量机的主动学习。实验证明,该方法在大规模数据集上具有较高的性能和可扩展性。
摘要由CSDN通过智能技术生成

Abstract

超平面散列(Hyperplane hashing)的目的是快速搜索到离超平面最近的点,并在使用支持向量机(SVM)扩大主动学习方面显示出实际效果。
存在问题:不幸的是,现有的随机方法需要长哈希码才能达到合理的搜索精度,因此会降低搜索速度和内存开销。

解决方法:为此,论文(Compact Hyperplane Hashing with Bilinear Functions)提出了一种新的超平面哈希技术,它可以产生紧凑的哈希码。其核心思想是该散列函数的双线性形式,在使用随机投影时比现有的超平面散列函数具有更高的碰撞概率
为了进一步提高性能,我们提出了一个基于学习的框架,其中双线性函数直接从数据中学习。这将产生短而有区别的代码,并且比基于随机投影的解决方案提高了搜索性能。在两个数据集上进行的大规模主动学习实验证明了该方法的优越性。

1. Introduction

由于数据的大量增长,快速近似最近邻搜索(approximate nearest neighbor search)在各种领域和应用中普遍出现。克服速度瓶颈的有吸引力的解决方案。
彻底的线性扫描所带来的是使用局部敏感哈希(LSH)家族的算法(Gionis等人,1999)(Charikar,2002)(Datar等人,2004),这些算法使用随机投影将输入数据转换为二进制散列码。虽然在次线性散列/搜索时间和返回邻域的准确性方面有理论上的保证,但LSH相关的方法通常需要较长的代码和大量的代码和哈希表的数量才可以达到很好的搜索精度。这可能会导致相当大的存储开销和降低搜索速度。因此,在文献中,直接学习依赖于数据的散列函数来生成紧凑代码已成为一种流行。这种散列通常每个数据项需要少量的位,并且可以设计成使用单个散列表和恒定的散列时间。最先进的技术包括无监督哈希(Liu et al.,2011)、半监督哈希(Wang et al.,2012)和监督哈希(Liu et al.,2012)。
现有的散列方法大多试图解决点到点最近邻搜索问题。也就是说,查询和数据库项都被表示为某个特征空间中的单独点。
考虑到现实世界数据的复杂结构,过去还提出了点对点搜索之外的其他形式的散列范式,例如子空间到子空间最近邻搜索(Basri等人,2011)。
在这篇文章中,我们提出了一个更具挑战性的超平面搜索问题,其中查询在Rd中是超平面,即(d-1)维子空间,而数据库项是常规的点。那么搜索问题是:给定一个超平面查询和一个点数据库,返回到超平面距离最小的点。在文献中,关于点到超平面问题的研究还不多,但(Jain等人,2010)证明了这一问题在使基于SVM的主动学习在海量数据池上可行方面的重要性。
主动学习(AL)也称为基于池的主动学习,它通过选择几个样本进行标记来规避盲目标记的高成本。在每一次迭代中,典型的学习者从未标记的样本池中寻找信息量最大的样本,从而在标记选定样本后获得最大的信息增益。然后,在增量标记样本集上重新训练学习模型。经典算法(Tong&Koller,2001)使用支持向量机(SVM)作为学习模型。基于“版本空间”理论(Tong&Koller,2001),它证明了在对称版本空间(version spaces)假设成立的情况下,选择最接近当前决策超平面的样本。不幸的是,主动选择方法在应用于大型数据库时面临严重的计算挑战。寻找最佳样本的穷举搜索(exhaustive search )通常在计算上是禁止的。因此,快速的点到超平面搜索被强烈地期望在大的实际数据集上扩大主动学习。
最近,在(Jain等人,2010)中提出了超平面哈希方案来处理点到超平面搜索。与通过所有数据库点的暴力扫描相比,这些方案在理论上保证了次线性查询时间和检索到的近似近邻的精度损失,显著提高了效率。因此,当对
支持向量机主动学习的样本选择任务,可以扫描数量级较少的数据库点来传递下一个主动标记请求,从而使主动学习具有可扩展性。
在(Jain et al.,2010)中,随机散列的两个家族证明了函数对角度的局部敏感性在数据库点和超平面查询之间;然而,长哈希位和大量哈希表必须满足理论保证。实际上,它采用了300位和500个表(Jain等人,2010)为了实现合理的绩效,这给计算和存储都带来了沉重的负担。
为了缓解上述问题,本文提出了一种紧凑的超平面哈希方案它只利用一个包含多个数十个哈希位来处理指向超平面搜索的问题。
我们的哈希方案的主旨是设计和学习双线性哈希函数,使得几乎平行的输入向量被哈希到相同的比特,而几乎垂直的输入向量被哈希到不同的比特。事实上,我们首先证明,即使没有任何学习,所提出的双线性的随机版本
与现有的方法相比,哈希方法具有更高的近邻居碰撞概率。
在这里插入图片描述

图1 支持向量机主动学习中的点到超平面搜索问题。Pw是支持向量机的超平面决策边界,w是Pw的法向量,x是一个数据向量。(a) 点到超平面距离D(x,Pw)和指向超平面角αx,w;(b)提供有用信息的(x1,x2)和信息不足的(x3,x4)样本。

接下来,我们将双线性投影投射到一个学习框架中,并说明使用学习的散列函数可以做得更好。给定一个超平面查询,它的法向量作为输入࿰

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值