海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总

范涛

于 2017-04-19 21:11:08 发布

阅读量7.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hero_fantao/article/details/70245284

本文介绍了在处理高维稀疏数据时，如何利用Minhashing、LSH（局部敏感哈希）和Simhash技术进行快速相似查找。Minhashing用于将高维数据降低到低维空间，LSH进一步通过哈希策略减少相似度计算的时间复杂度，Simhash则将文本映射为固定长度的二进制串，便于高效地进行去重和相似性判断。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

范涛

发表于2017-04-19

最近把海量数据如何进行相似查找技术进行个大体汇总，包括高维稀疏数据和稠密数据。

这一节重点针对高维稀疏数据情况，说如何通过哈希技术进行快速进行相似查找。

试想个案例，就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别，user是千万级别，这个矩阵是十分稀疏的。你如何计算每一个item的Top N相似item呢？

同样海量文本场景，文本集合可以看成doc-word 稀疏矩阵，如何求解每个文档的Top N相似文档？

如果采用两两比较的话，至少有两个问题：（1） O(n^2) 遍历比较时间复杂度；（2）两个高维向量之间计算相似度，比如jaccard相似度，时间很耗时。

那如何解决呢？第一反应是用倒排啊。的确倒排能把上面的时间复杂度降低好几个数量级。但是上面提到的第二个问题却还是存在的。并且当文本数量级达到一定数量级时候，倒排拉链过长，效率也会下降。

所以这章重点说下基于哈希的方法，这种方法通过牺牲一定精度来换取时间上大幅提升。

一 Minhashing

先从Minhas

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。