大数据学习笔记3-近邻搜索

1.集合的Jaccard相似度

集合S和T的Jaccard相似度为|S∩T|/|S∪T|,交集除以并集。SIM(S, T)


         如上图所示,SIM(S, T) = 3/8

 2. 文档的Shingling

文档的k-Shingle定义为其中任意长度为k的子串。

        k值的选择依赖于文档的典型长度以及典型的字符表大小。

        k值应该选的足够大,以保证热议给定的shingle出现在任意文档中的概率较低。


3. Jaccard距离

定义为d(x, y) = 1- SIM(x, y)


4. 余弦距离(cosine distance)

在具有维度的空间下余弦距离才有意义。领个点的余弦距离实际上是点所代表的向量之间的夹角。

我们先计算夹角的余弦,然后用反余弦函数将结果转化成0~180度之间的角度,从而得到余弦距离。


5. 编辑距离

只适用于字符串比较。两个字符串的编辑距离等于将x转化成y所需要的单字符插入以及删除操作的最小数目。


6. 海明距离(Hamming distance)

在一个向量空间中,海明距离定义为两个向量中不同分量的个数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值