大数据：相似项发现

最新推荐文章于 2021-07-09 20:33:53 发布

快乐的霖霖

最新推荐文章于 2021-07-09 20:33:53 发布

阅读量1.9k

点赞数 1

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chdhust/article/details/8604663

版权

数据挖掘专栏收录该内容

19 篇文章 3 订阅

订阅专栏

大数据：相似项发现

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第三章的总结。

1 Jaccard相似度：交集大小/并集大小，可应用于文档相似度，购物习惯相似度计算

2 Shingling：K-shingling文档中连续出现的任意K个字符。

3 最小哈希：集合上的最小哈希函数是基于全局的排列转换来定义。给定任意一个排列转换，集合的最小哈希值为排列转换次序下出现的第一个集合元素。

4 最小哈希值相等的概率等于两个集合的Jaccard相似度。

5 最小哈希签名：选择多个排列转换，在每个排列转换下计算集合的最小哈希值，这些最小哈希值序列构成集合的最小哈希签名。

6 高效最小哈希：选择随机哈希函数，利用该函数对集合中所有元素进行哈希操作，得到的最小值看成集合的最小哈希值

7 签名的局部敏感哈希：给定集合签名，划分成条，仅仅计算至少有一个行条相等的集合对之间相似度，合理选择行条大小，消除不满足相似度阈值的大部分集合对之间的比较。

8 测度距离：大于等于0；对称；满足三角不等式

9 欧式距离 Jaccard距离:1-Jaccard相似度余弦距离，编辑距离，海明距离

10 局部敏感哈希理论：对给定集合，集合中的函数可用于相似性检测时决定某个项是否要作为候选对进行后续比较。对这些函数给出约束参数：1 距离小于限制值这些函数判定为候选对下界，2距离大于限制值判定为候选对上界。

11 字符串比较的高相似度检测：利用局部敏感哈希理论，限制字符串长度。

快乐的霖霖

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大数据：相似项发现

大数据：相似项发现下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第三章的总结。1 Jaccard相似度：交集大小/并集大小，可应用于文档相似度，购物习惯相似度计算2 Shingling：K-shingling文档中连续出现的任意K个字符。3 最小哈希：集合上的最小哈希函数是基于全局的排列转换来定义。给定任意一个排列转换，集合的最小哈希值为排
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。