LSH minhash Signature

最新推荐文章于 2023-10-31 10:37:34 发布

zhangztSky

最新推荐文章于 2023-10-31 10:37:34 发布

阅读量237

点赞数

分类专栏：推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38574975/article/details/106943496

版权

推荐系统专栏收录该内容

24 篇文章 2 订阅

订阅专栏

局部敏感哈希LSH(Locality Sensitive Hashing)
从海量数据库中寻找到与查询数据相似的数据是一个很关键的问题。比如在图片检索领域，需要找到与查询图像相似的图，文本搜索领域都会遇到。如果是低维的小数据集，我们通过线性查找（Linear Search）就可以容易解决，但如果是对一个海量的高维数据集采用线性查找匹配的话，会非常耗时，因此，为了解决该问题，我们需要采用一些类似索引的技术来加快查找过程，通常这类技术称为最近邻查找（Nearest Neighbor,AN），例如K-d tree；或近似最近邻查找（Approximate Nearest Neighbor, ANN），例如K-d tree with BBF, Randomized Kd-trees, Hierarchical K-means Tree。而LSH是ANN中的一类方法。

基本思想：LSH算法基于一个假设，如果两个文本在原有的数据空间是相似的，那么分别经过哈希函数转换以后的它们也具有很高的相似度
经常使用的哈希函数，冲突总是难以避免。LSH却依赖于冲突，在解决NNS(Nearest neighbor search )时，我们期望：

在这里插入图片描述

离得越近的对象，发生冲突的概率越高
离得越远的对象，发生冲突的概率越低
总结：那么我们在该数据集合中进行近邻查找就变得容易了，我们只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据。
准备些写得时候，发现大佬们已经总结的很棒很完善了，瞬间不知道改写什么，、

贴个链接吧
minhash1
minhash2
minhash3

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LSH minhash Signature

准备些写得时候，发现大佬们已经总结的很棒很完善了，瞬间不知道改写什么，、贴个链接吧minhash1minhash2minhash3
复制链接

扫一扫

专栏目录

zhangztSky CSDN认证博客专家 CSDN认证企业博客

码龄7年

93: 原创

8万+: 周排名

64万+: 总排名

6万+: 访问

: 等级

1287: 积分

22: 粉丝

53: 获赞

56: 评论

199: 收藏

私信

关注

热门文章

分类专栏

推荐系统 24篇
推荐算法经典论文复现 6篇
深度学习 16篇
机器学习 9篇
tensorflow 24篇
pytorch 3篇
pyspark 3篇
调参技巧 4篇
NLP 3篇
Python 9篇
git 1篇
大数据算法 7篇
数据结构与算法 1篇
java 10篇
maven 3篇
flink 3篇
scala 1篇
计算机原理 4篇
大数据 6篇
分布式 3篇
算法 1篇
hive 6篇
数据仓库 4篇

最新评论

推荐算法之Baseline
Alice_176: 您好请问数据集在哪里下载呢？
DeepFM原理以及DeepCTR代码实现
小猴jy: 楼主，第29行的DeepFM是没有源码吗
基于图卷积网络（GCN）做AE商品推荐
qq_44808385: 哥有问题请教，为啥autoencoder这个文件激活函数activation=f.relu报错，但是换成activation=lambda x:x就没问题，请您指教谢谢。还有为什么activation=lambda x:1. /(1+torch.exp(-x)))也就是sigmoid函数训练两三次后面的loss全都变成nan了，这是为啥啊？还请哥指导一二，万分感谢
推荐算法之Baseline
你，好: 写的很棒
基于矩阵分解的CF算法实现（一）：（Funk SVD）LFM
shuiping_IT_road: hello？想请问一下这个数据里的格式是什么样啊？我用官网下载的dat格式读取，一直报错，我用的代码是 dataset = pd.read_csv("E:/Jupyter/00-推荐系统/ml-1m/ratings.dat", delimiter='::', engine = "python", header = None, names = ['userId', 'movieId', 'rating'], usecols=range(3),index_col = 0, dtype = dict(dtype)) 求指点！感谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。