大数据:相似项发现

大数据:相似项发现

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第三章的总结。

1 Jaccard相似度 :交集大小/并集大小,可应用于文档相似度,购物习惯相似度计算

2 Shingling:K-shingling文档中连续出现的任意K个字符。

3 最小哈希:集合上的最小哈希函数是基于全局的排列转换来定义。给定任意一个排列转换,集合的最小哈希值为排列转换次序下出现的第一个集合元素。

4 最小哈希值相等的概率等于两个集合的Jaccard相似度。

5 最小哈希签名:选择多个排列转换,在每个排列转换下计算集合的最小哈希值,这些最小哈希值序列构成集合的最小哈希签名。

6 高效最小哈希:选择随机哈希函数,利用该函数对集合中所有元素进行哈希操作,得到的最小值看成集合的最小哈希值

7 签名的局部敏感哈希:给定集合签名,划分成条,仅仅计算至少有一个行条相等的集合对之间相似度,合理选择行条大小,消除不满足相似度阈值的大部分集合对之间的比较。

8 测度距离:大于等于0;对称;满足三角不等式

9 欧式距离 Jaccard距离:1-Jaccard相似度 余弦距离,编辑距离,海明距离

10 局部敏感哈希理论:对给定集合,集合中的函数可用于相似性检测时决定某个项是否要作为候选对进行后续比较。对这些函数给出约束参数:1 距离小于限制值这些函数判定为候选对下界,2距离大于限制值判定为候选对上界。

11 字符串比较的高相似度检测:利用局部敏感哈希理论,限制字符串长度。


  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值