《 Scaling Up All Pairs Similarity Search》

 

 ScalingUp All Pairs Similarity Search

扩展所有pair的相似性搜索。

摘要:

给定一个高维稀疏向量集合,我们研究找出所有pair的相似性分数(例如定义为余弦分数)的问题,并在这些pair高于给定阈值。我们提出一个简单算法:基于一种新颖的索引和优化策略,不需要近似算法和参数调优来解决这个问题。我们展示这种方法能够有效的处理多种数据集合,通过广泛调整相似性分数,并且对之前最好的方法都能得到更快的速度。

介绍:

需要计算相似性的地方。

互联网搜索的关键词提炼:可以用于相似query的发现、关键词推荐。目的是得到高质量的推荐,我们只需要计算所有querypair的相似性分数。

协调过滤:

需要计算相似用户的相关性。

重复网页的检测和去除:

  对于文档索引非常重要。

共同引用检测:

       用于点击作弊的识别。

这些都不是新的应用,但是目前由于web的规模很大,因此大量的应用都要计算上千万的query,上千万的用户的相关性分数。

(从以上几点可以看出,作者对搜索引擎相关应用了解比较多,作者是google工作阶段完成的论文)

一个算法是使用近似算法。(按:我们经常使用一些方法只计算部分query直接的相关性,而不是计算一个query和其他所有n个query之间的相关性)。

即使在理论上,很多近似算法通过调整参数得到一个很小的错误率,但是在实际算法应用中,可能会造成较大的错误。最近数据库社区的工作发现所有相似性的pairs已经被替换为精确的解决问题,以及在数据库管理系统的环境中。我们提出一个精确的解决方法。我们证明一个吝啬的并结合一些细微并且简单的优化可以带来性能上巨大的提升。

 

 

问题定义:

 

Given a set of real-valued vectors V={v1,v2…vn}of fixed dimensionality m, a similarity function sim(x,y), and a similaritythreshold t, we wish to compute the set of all pairs (x,y) and theirsimilarity values sim(x,y) such that x,yV and sim(x,y)≥t.We assume the similarity function is commutative. Thus, if the pair (x,y) meetsthe threshold, so does (y,x), and we need only include one in the result. Wealso assume vector values are non-negative.

 

 

 对向量先归一化,那么向量距离只需要算两个向量内积,不需要分母。

针对特征维度:对特征维度的数据做倒排。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值