MinHash与SimHash

这篇文字主要写MinHash和SimHash的区别、联系、在工业界使用等,不涉及MinHash和SimHash的详细基础介绍,相关资料参考资料里给出。

一、相同点

提到哈希我们想到很多应用,最常见的话就是用于提高查询效率,还可用于加密方面。本篇文章要介绍的MinHash和SimHash由于具有一些特殊的特性在降维,查重和聚类等方面应用广泛。

1.它们都具有一般哈希方法所没有的局部敏感的性质(局部敏感哈希LSH是一类哈希函数)。比如MD5算法会使两个相差不大的文档的哈希结果差异很大,而MinHash和SimHash会使两个相差不大的文档的哈希结果很相似。

-敏感的LSH函数族的公式化描述如下图。其中Sim(x,y)代表x和y两点的相似度。Pr( h(x) = h(y) )表示x和y两点哈希结果相同(产生冲突)的概率。


对于-敏感的LSH函数族,对于近邻搜索问题,查询时间和相关。

  • 14
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值