LSH局部敏感hash-口头解释版

最新推荐文章于 2022-08-12 10:05:45 发布

明天,今天,此时

最新推荐文章于 2022-08-12 10:05:45 发布

阅读量319

点赞数

分类专栏：数据结构文章标签： LSH

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LearnToPain/article/details/110471284

版权

数据结构专栏收录该内容

3 篇文章 0 订阅

订阅专栏

网上讲LSH这个很多，但是我就没找到有人讲清楚了的，于是写下这篇文本

https://zhuanlan.zhihu.com/p/108181478
这个链接是一知乎大神的对shingling，min-hash和LSH的理解性讲解
前面很容易懂，唯独LSH，让人看不懂，我也看了他推荐的链接，有篇英文pdf讲的这个。
看了几遍，就是没说破LSH怎么用，就在讲特异度和敏感度的问题。
http://web.stanford.edu/class/cs246/slides/03-lsh.pdf
其实就很简单，过程如下。

整个过程

数据，有10万文档
对这十万文档进行shingling，可以是n-gram取字符串分片，也可以是分词，就是粒度化。
建立0-1矩阵，行就是所有文档粒度化的字符串去重排序的集合，列是各篇文档。
min-hash，进行降维，自己建立100个hash，然后对行序号计算hash值，最后计算min-hash,不太明白min-hash的看前面的链接。
得到hash方法集合和文档的矩阵，行数变少了，文档数没变，文档数也不能变，所以还是只有变行数，于是就有了LSH。
把行均匀分成多块，也就是几个hash方法一组，这样就有多组了，计算LSH时，就选一组就可以了，计算量就小了。前面文档是解释怎么选择分多少组，让误差小。buckets似乎没什么用。

明天,今天,此时

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LSH局部敏感hash-口头解释版

网上讲LSH这个很多，但是我就没找到有人讲清楚了的，于是写下这篇文本https://zhuanlan.zhihu.com/p/108181478这个链接是一知乎大神的对singling，min-hash和LSH的理解性讲解前面很容易懂，唯独LSH，让人看不懂，我也看了他推荐的链接，有篇英文pdf讲的这个。看了几遍，就是没说破LSH怎么用，就在讲特异度和敏感度的问题。http://web.stanford.edu/class/cs246/slides/03-lsh.pdf其实就很简单，过程如下。
复制链接

扫一扫

专栏目录

明天,今天,此时 CSDN认证博客专家 CSDN认证企业博客

码龄5年

102: 原创

26万+: 周排名

4万+: 总排名

16万+: 访问

: 等级

2018: 积分

16: 粉丝

72: 获赞

31: 评论

198: 收藏

私信

关注

热门文章

分类专栏

安装 26篇
代码 14篇
笔记 9篇
数据结构 3篇
Dijkstra 1篇
算法 27篇
others 24篇

最新评论

怎么解决C语言switch case getchar()或者scanf()无法正常运行？
焚詩作薪: 漂亮，解决了我的大问题
补码有什么用？
做而论道_CS: 补码的长处，是计算机做加减运算。乘除时，应该用绝对值相乘除、符号位相异或。这是最简便的方法。而且，乘除法的硬件，也可以适用于无符号数的乘除。如果用补码来做乘除，麻烦不说，也不好用无符号数通用。
补码有什么用？
做而论道_CS: 知道一个补码，它代表什么十进制数呢？由补码换算到十进制数，也极其简单。你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1。如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。例如，有一个补码：1110 0001，它代表的十进制是：－128 + 64 + 32 + 1 = －31。如果，另一个补码：0110 0001，它代表的十进制是：0 + 64 + 32 + 1 = ＋97。仅仅使用【进制转换】，不就完事了？哪能用得上原码反码取反加一啊！
补码有什么用？
做而论道_CS: 况且，在码长八位时，各码的范围如下：原码：－127 ~ +127；反码：－127 ~ +127；补码：－128 ~ +127。看到了吧：－128 只有补码，没有原码和反码。没有原码，拿什么取反？没有反码，拿什么加一？那么，－128 的补码，怎么来的？必须是用 “补码定义式” 来求。取反加一，就是专家用来唬人的！根本就没有任何道理。
补码有什么用？
做而论道_CS: 对于 8 位 2 进制数来说，周期就是 2^8 = 256。那么：　－1 的补码是 256－1 = 255 = 1111 1111 (二进制)，　－2 的补码是 256－2 = 254 = 1111 1110 (二进制)，。。。－－－－－－－－－－正数呢？　+1 的补码是 256 + 1 = 257。超出周期了，就是出现了进位。此时，就要舍去周期值，剩下的还是 +1。所以，正数的补码，还是其本身。－－－－－－－－－－以上，就是补码的定义！补码与原码反码，都没有任何关系。 “取反加一”，就更是胡编乱造了。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。