Locality Sensitive Hashing--LSH了解

目的:解决NN

1.定义

S:顶点域

D:定点间的距离(采用某种距离度量)

 

意思就是,如果点p和点q的距离小于某个阈值,那么它们被哈希到一个桶中的概率至少是p1;如果距离大于某个值,那么它们不会被哈希到同一个桶的概率最大是p2。也就是说距离越近越容易被哈希到同一个桶中。

下面这个事哈希函数:

 

a:根据p-stable分布得到的一个d维随机向量;

b[0 , W] 的任意一个值;

h(v)将一个d维向量v映射为一个整数;

2.LSH Indexing过程

(1). 定义函数族G={g: S --> UM},其中g(v) = (h1(v),h2(v),h3(v)....hM(v))。每个hj都是从上面那个式子来的。

(2). G中选取L个函数,这样对向量v哈希后就会得到Lhash table,每个table包含M个哈希值。

 

LSH将点qhash桶做为候选集,然后对候选集排序找到top K.

缺点:可能需要大量hash table来提高NN准确率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值